「猫である確率80%」とモデルが予測し、実際は猫だった。この予測はどれだけ「良い」か。交差エントロピーはこの問いに答える。分類タスクのほぼすべてで使われる損失関数であり、情報理論と機械学習の接点がここにある。

交差エントロピー 損失関数 ソフトマックス 分類

交差エントロピーの定義

交差エントロピー(Cross-Entropy)

H(P, Q) = -Σ P(x) log Q(x)

真の分布Pのもとで、分布Qを使って符号化したときの平均符号長。

予測Q が真のP に近いほど、交差エントロピーは小さい。

分類タスクでの使用

2値分類(Binary Cross-Entropy)

Binary Cross-Entropy

L = -[y log(p) + (1-y) log(1-p)]

y: 正解ラベル(0 or 1)

p: モデルの予測確率(クラス1の確率)

多クラス分類(Categorical Cross-Entropy)

Categorical Cross-Entropy

L = -Σ yᵢ log(pᵢ)

y: one-hotベクトル(正解クラスのみ1)

p: ソフトマックス出力(確率分布)

→ 正解クラスの予測確率の負の対数

なぜ交差エントロピーを使うのか

理由 説明
確率的解釈 最尤推定と等価。予測分布を真の分布に近づける。
勾配の性質 ソフトマックスと組み合わせると勾配がシンプルに。
確信度の罰則 間違いを確信するほど大きなペナルティ。

MSE vs 交差エントロピー

MSE(平均二乗誤差) 交差エントロピー
用途 回帰 分類
勾配 Sigmoidで飽和しやすい 飽和しにくい
解釈 幾何学的距離 情報理論的距離

実務での応用

WEB開発での応用

分類API:画像分類、テキスト分類の損失関数。

クリック予測:CTR予測モデルの訓練。

スパム検出:2値分類モデルの損失。

AI/MLでの応用

分類の標準損失:ほぼすべての分類タスクで使用。

言語モデル:次の単語予測は多クラス分類。交差エントロピー = perplexity の対数。

セグメンテーション:ピクセル単位の分類損失。

ラベルスムージング:one-hotを緩和して過学習を防ぐ。

深掘りリンク