統計的学習理論

1. 経験的リスク最小化(ERM)

1.1 リスクの定義

真のリスク(期待損失):
R(h) = E_{(x,y)~D}[L(h(x), y)]

経験的リスク(訓練誤差):
R̂(h) = (1/m) Σᵢ L(h(xᵢ), yᵢ)

ERM: ĥ = argmin_{h∈H} R̂(h)

1.2 一様収束

条件:
sup_{h∈H} |R(h) - R̂(h)| →^P 0 (m→∞)

成立すれば:
R̂(h)の最小化 ≈ R(h)の最小化

2. バイアス・バリアンス分解

2.1 二乗損失の場合

E[(h(x) - y)²] = Bias²(h) + Variance(h) + Noise

Bias²: E[h(x)] - f(x) の二乗(真の関数fからのずれ)
Variance: E[(h(x) - E[h(x)])²](データセットによる変動)
Noise: E[(y - f(x))²](削減不可能な誤差)

2.2 トレードオフ

モデル複雑度バイアスバリアンス
低(単純)
高(複雑)

3. 正則化

3.1 構造的リスク最小化

目的関数: R̂(h) + λΩ(h)

Ω(h): 正則化項(複雑度ペナルティ)
λ: 正則化強度

3.2 正則化の種類

名称形式効果
L2(Ridge)||w||₂²重み縮小
L1(Lasso)||w||₁スパース化
Elastic Netα||w||₁ + (1-α)||w||₂²両方の特性

3.3 ベイズ的解釈

  • L2正則化 ↔ ガウス事前分布
  • L1正則化 ↔ ラプラス事前分布
  • MAP推定と等価

4. No Free Lunch定理

定理(Wolpert & Macready):
すべての問題に対して最良の学習アルゴリズムは存在しない

あるアルゴリズムが問題Aで優れていれば、
別の問題Bでは劣る

→ ドメイン知識・帰納バイアスの重要性

5. 参考文献

  • Vapnik (1998). "Statistical Learning Theory"
  • Hastie et al. (2009). "Elements of Statistical Learning"
  • Shalev-Shwartz & Ben-David (2014). "Understanding Machine Learning"