2つの確率分布がどれだけ「違う」かを測りたい。モデルの予測分布と真の分布、近似分布と目標分布。KLダイバージェンスは、この「分布間の距離」を情報理論的に定義する。VAEの損失関数やベイズ推論の変分法に欠かせない道具である。
KLダイバージェンス 相対エントロピー 分布間距離 VAE
KLダイバージェンスの定義
KLダイバージェンス(Kullback-Leibler Divergence)
D_KL(P || Q) = Σ P(x) log(P(x) / Q(x))
または連続版:∫ p(x) log(p(x)/q(x)) dx
分布Pを分布Qで近似したときの「情報の損失」
別名:相対エントロピー
KLダイバージェンスの性質
| 性質 | 内容 | 意味 |
|---|---|---|
| 非負性 | D_KL(P || Q) ≥ 0 | 常に0以上 |
| ゼロ条件 | D_KL(P || Q) = 0 ⇔ P = Q | 同一分布なら0 |
| 非対称性 | D_KL(P || Q) ≠ D_KL(Q || P) | 距離ではない |
| 三角不等式 | 成り立たない | 距離の公理を満たさない |
非対称性の意味
D_KL(P || Q) と D_KL(Q || P) は異なる意味を持つ。
| 形式 | Qの性質 | 用途 |
|---|---|---|
| D_KL(P || Q) | Qが広い(mode-covering) | 最尤推定 |
| D_KL(Q || P) | Qが狭い(mode-seeking) | 変分推論 |
交差エントロピーとの関係
関係式
D_KL(P || Q) = H(P, Q) - H(P)
H(P, Q): 交差エントロピー
H(P): Pのエントロピー
→ H(P)が固定なら、KL最小化 = 交差エントロピー最小化
実務での応用
WEB開発での応用
モデル比較:ユーザー行動分布のモデル間比較。
異常検知:通常時と異常時の分布の乖離を測定。
A/Bテスト:2群の分布の差を測定。
AI/MLでの応用
VAE(変分オートエンコーダ):潜在空間を正規分布に近づけるKL項。
知識蒸留:教師モデルと生徒モデルの出力分布のKLを最小化。
強化学習:方策の更新幅をKLで制約(TRPO, PPO)。
ベイズ推論:変分推論で近似事後分布を最適化。
深掘りリンク
- Wikipedia: カルバック・ライブラー情報量
- 関連:f-ダイバージェンス、Jensen-Shannon
- 次のステップ:変分推論、ELBO