「猫である確率80%」とモデルが予測し、実際は猫だった。この予測はどれだけ「良い」か。交差エントロピーはこの問いに答える。分類タスクのほぼすべてで使われる損失関数であり、情報理論と機械学習の接点がここにある。
交差エントロピー 損失関数 ソフトマックス 分類
交差エントロピーの定義
交差エントロピー(Cross-Entropy)
H(P, Q) = -Σ P(x) log Q(x)
真の分布Pのもとで、分布Qを使って符号化したときの平均符号長。
予測Q が真のP に近いほど、交差エントロピーは小さい。
分類タスクでの使用
2値分類(Binary Cross-Entropy)
Binary Cross-Entropy
L = -[y log(p) + (1-y) log(1-p)]
y: 正解ラベル(0 or 1)
p: モデルの予測確率(クラス1の確率)
多クラス分類(Categorical Cross-Entropy)
Categorical Cross-Entropy
L = -Σ yᵢ log(pᵢ)
y: one-hotベクトル(正解クラスのみ1)
p: ソフトマックス出力(確率分布)
→ 正解クラスの予測確率の負の対数
なぜ交差エントロピーを使うのか
| 理由 | 説明 |
|---|---|
| 確率的解釈 | 最尤推定と等価。予測分布を真の分布に近づける。 |
| 勾配の性質 | ソフトマックスと組み合わせると勾配がシンプルに。 |
| 確信度の罰則 | 間違いを確信するほど大きなペナルティ。 |
MSE vs 交差エントロピー
| MSE(平均二乗誤差) | 交差エントロピー | |
|---|---|---|
| 用途 | 回帰 | 分類 |
| 勾配 | Sigmoidで飽和しやすい | 飽和しにくい |
| 解釈 | 幾何学的距離 | 情報理論的距離 |
実務での応用
WEB開発での応用
分類API:画像分類、テキスト分類の損失関数。
クリック予測:CTR予測モデルの訓練。
スパム検出:2値分類モデルの損失。
AI/MLでの応用
分類の標準損失:ほぼすべての分類タスクで使用。
言語モデル:次の単語予測は多クラス分類。交差エントロピー = perplexity の対数。
セグメンテーション:ピクセル単位の分類損失。
ラベルスムージング:one-hotを緩和して過学習を防ぐ。
深掘りリンク
- Wikipedia: 交差エントロピー
- 関連:Focal Loss、Label Smoothing
- 動画:StatQuest「Cross Entropy」
- 次のステップ:損失関数の設計、最尤推定