二重降下・良性過適合

1. 古典的理解への挑戦

1.1 従来の常識

U字型のバイアス・バリアンス曲線:
- モデル複雑度↑ → 訓練誤差↓、テスト誤差↓(最初)
- さらに複雑度↑ → 過学習、テスト誤差↑
- 最適な複雑度が存在

1.2 現代の観察

深層学習では:

  • パラメータ数 >> データ数でも汎化
  • 訓練誤差0(補間)でも良いテスト性能
  • U字型を超えた現象

2. 二重降下

2.1 現象

テスト誤差の推移(モデル複雑度に対して):

     ↑テスト誤差
     |    *
     |   * *
     |  *   *     *
     | *     *   * *
     |*       * *   *
     |         *     *****
     +------------------→ モデル複雑度
        [古典的]  [補間] [過パラメータ化]
                  閾値

2.2 解釈

  • 補間閾値:訓練データを完全に記憶できる点
  • 閾値付近でテスト誤差が最悪
  • 閾値を超えると再び改善

3. 良性過適合(Benign Overfitting)

3.1 定義

訓練データを完全にフィット(補間)しながら、良好な汎化性能を示す現象。

3.2 成立条件

条件説明
高次元特徴次元 >> サンプル数
最小ノルム補間解の中で最小ノルムを選択
共分散構造信号とノイズの分離可能性

3.3 直感

高次元では:
- 多くの補間解が存在
- 最小ノルム解は「単純」
- ノイズが多くの次元に分散
- 本質的なパターンは少数の次元に集中

4. Epoch方向の二重降下

4.1 現象

モデル複雑度だけでなく、訓練時間でも二重降下が起こる。

エポック数↑:
1. テスト誤差↓(学習)
2. テスト誤差↑(過学習開始)
3. テスト誤差↓(再び改善)

4.2 Grokking

  • 長時間訓練後に突然汎化が改善
  • 訓練損失0の後もテスト性能が向上し続ける

5. 参考文献

  • Belkin et al. (2019). "Reconciling modern machine learning practice and the classical bias–variance trade-off" PNAS
  • Nakkiran et al. (2020). "Deep Double Descent" ICLR
  • Bartlett et al. (2020). "Benign overfitting in linear regression" PNAS
  • Power et al. (2022). "Grokking: Generalization Beyond Overfitting" ICLR Workshop