勾配降下法の理論

1. 非凸最適化

高次元では:
- 局所最小点より鞍点がはるかに多い
- ∇L = 0 の点の大部分は鞍点
- 勾配消失で学習が停滞

解決策:
- モメンタム: 鞍点を乗り越える
- 適応的学習率（Adam等）: 曲率を考慮

SGD with learning rate η:
E[L(w_T)] - L(w*) ≤ O(1/√T)

収束は保証されるが遅い

勾配ノルムの収束:
min_t E[||∇L(w_t)||²] ≤ O(1/√T)

「勾配が0に近い点」には到達
ただし大域最小点とは限らない

明示的な正則化なしでもSGDは「良い」解を見つける。

観察:
- 過パラメータ化モデルでも汎化
- 訓練誤差0でも良いテスト性能
- SGDが特定の解を「選好」

線形回帰の場合、勾配降下は最小ノルム解に収束：

min ||w||₂² subject to Xw = y

過パラメータ化でも「単純な」解を選ぶ

異なる局所最小点が低い損失の経路で接続
→ 局所最小点の「谷」は連結している可能性

Zhang et al. (2017). "Understanding deep learning requires rethinking generalization" ICLR
Keskar et al. (2017). "On Large-Batch Training for Deep Learning" ICLR
Li et al. (2018). "Visualizing the Loss Landscape of Neural Nets" NeurIPS