1. 経験的リスク最小化(ERM)
1.1 リスクの定義
真のリスク(期待損失):
R(h) = E_{(x,y)~D}[L(h(x), y)]
経験的リスク(訓練誤差):
R̂(h) = (1/m) Σᵢ L(h(xᵢ), yᵢ)
ERM: ĥ = argmin_{h∈H} R̂(h)
1.2 一様収束
条件:
sup_{h∈H} |R(h) - R̂(h)| →^P 0 (m→∞)
成立すれば:
R̂(h)の最小化 ≈ R(h)の最小化
2. バイアス・バリアンス分解
2.1 二乗損失の場合
E[(h(x) - y)²] = Bias²(h) + Variance(h) + Noise
Bias²: E[h(x)] - f(x) の二乗(真の関数fからのずれ)
Variance: E[(h(x) - E[h(x)])²](データセットによる変動)
Noise: E[(y - f(x))²](削減不可能な誤差)
2.2 トレードオフ
| モデル複雑度 | バイアス | バリアンス |
| 低(単純) | 高 | 低 |
| 高(複雑) | 低 | 高 |
3. 正則化
3.1 構造的リスク最小化
目的関数: R̂(h) + λΩ(h)
Ω(h): 正則化項(複雑度ペナルティ)
λ: 正則化強度
3.2 正則化の種類
| 名称 | 形式 | 効果 |
| L2(Ridge) | ||w||₂² | 重み縮小 |
| L1(Lasso) | ||w||₁ | スパース化 |
| Elastic Net | α||w||₁ + (1-α)||w||₂² | 両方の特性 |
3.3 ベイズ的解釈
- L2正則化 ↔ ガウス事前分布
- L1正則化 ↔ ラプラス事前分布
- MAP推定と等価
4. No Free Lunch定理
定理(Wolpert & Macready):
すべての問題に対して最良の学習アルゴリズムは存在しない
あるアルゴリズムが問題Aで優れていれば、
別の問題Bでは劣る
→ ドメイン知識・帰納バイアスの重要性
5. 参考文献
- Vapnik (1998). "Statistical Learning Theory"
- Hastie et al. (2009). "Elements of Statistical Learning"
- Shalev-Shwartz & Ben-David (2014). "Understanding Machine Learning"