二重降下・良性過適合
1. 古典的理解への挑戦
1.1 従来の常識
U字型のバイアス・バリアンス曲線:
- モデル複雑度↑ → 訓練誤差↓、テスト誤差↓(最初)
- さらに複雑度↑ → 過学習、テスト誤差↑
- 最適な複雑度が存在
1.2 現代の観察
深層学習では:
- パラメータ数 >> データ数でも汎化
- 訓練誤差0(補間)でも良いテスト性能
- U字型を超えた現象
2. 二重降下
2.1 現象
テスト誤差の推移(モデル複雑度に対して):
↑テスト誤差
| *
| * *
| * * *
| * * * *
|* * * *
| * *****
+------------------→ モデル複雑度
[古典的] [補間] [過パラメータ化]
閾値
2.2 解釈
- 補間閾値:訓練データを完全に記憶できる点
- 閾値付近でテスト誤差が最悪
- 閾値を超えると再び改善
3. 良性過適合(Benign Overfitting)
3.1 定義
訓練データを完全にフィット(補間)しながら、良好な汎化性能を示す現象。
3.2 成立条件
| 条件 | 説明 |
|---|---|
| 高次元 | 特徴次元 >> サンプル数 |
| 最小ノルム | 補間解の中で最小ノルムを選択 |
| 共分散構造 | 信号とノイズの分離可能性 |
3.3 直感
高次元では:
- 多くの補間解が存在
- 最小ノルム解は「単純」
- ノイズが多くの次元に分散
- 本質的なパターンは少数の次元に集中
4. Epoch方向の二重降下
4.1 現象
モデル複雑度だけでなく、訓練時間でも二重降下が起こる。
エポック数↑:
1. テスト誤差↓(学習)
2. テスト誤差↑(過学習開始)
3. テスト誤差↓(再び改善)
4.2 Grokking
- 長時間訓練後に突然汎化が改善
- 訓練損失0の後もテスト性能が向上し続ける
5. 参考文献
- Belkin et al. (2019). "Reconciling modern machine learning practice and the classical bias–variance trade-off" PNAS
- Nakkiran et al. (2020). "Deep Double Descent" ICLR
- Bartlett et al. (2020). "Benign overfitting in linear regression" PNAS
- Power et al. (2022). "Grokking: Generalization Beyond Overfitting" ICLR Workshop