2つの確率分布がどれだけ「違う」かを測りたい。モデルの予測分布と真の分布、近似分布と目標分布。KLダイバージェンスは、この「分布間の距離」を情報理論的に定義する。VAEの損失関数やベイズ推論の変分法に欠かせない道具である。

KLダイバージェンス 相対エントロピー 分布間距離 VAE

KLダイバージェンスの定義

KLダイバージェンス(Kullback-Leibler Divergence)

D_KL(P || Q) = Σ P(x) log(P(x) / Q(x))

または連続版:∫ p(x) log(p(x)/q(x)) dx

分布Pを分布Qで近似したときの「情報の損失」

別名:相対エントロピー

KLダイバージェンスの性質

性質 内容 意味
非負性 D_KL(P || Q) ≥ 0 常に0以上
ゼロ条件 D_KL(P || Q) = 0 ⇔ P = Q 同一分布なら0
非対称性 D_KL(P || Q) ≠ D_KL(Q || P) 距離ではない
三角不等式 成り立たない 距離の公理を満たさない

非対称性の意味

D_KL(P || Q) と D_KL(Q || P) は異なる意味を持つ。

形式 Qの性質 用途
D_KL(P || Q) Qが広い(mode-covering) 最尤推定
D_KL(Q || P) Qが狭い(mode-seeking) 変分推論

交差エントロピーとの関係

関係式

D_KL(P || Q) = H(P, Q) - H(P)

H(P, Q): 交差エントロピー

H(P): Pのエントロピー

→ H(P)が固定なら、KL最小化 = 交差エントロピー最小化

実務での応用

WEB開発での応用

モデル比較:ユーザー行動分布のモデル間比較。

異常検知:通常時と異常時の分布の乖離を測定。

A/Bテスト:2群の分布の差を測定。

AI/MLでの応用

VAE(変分オートエンコーダ):潜在空間を正規分布に近づけるKL項。

知識蒸留:教師モデルと生徒モデルの出力分布のKLを最小化。

強化学習:方策の更新幅をKLで制約(TRPO, PPO)。

ベイズ推論:変分推論で近似事後分布を最適化。

深掘りリンク