Neural Tangent Kernel
1. 概要
1.1 NTKとは
Jacot et al. (2018)の発見:
無限幅のニューラルネットワークは
カーネル法として理解できる
訓練中、カーネル(NTK)は変化しない
→ 線形モデルとして解析可能
1.2 定義
NTK: Θ(x, x') = ⟨∇_θ f(x; θ), ∇_θ f(x'; θ)⟩
f(x; θ): ニューラルネットワーク
θ: パラメータ
∇_θ f: パラメータに関する勾配
2. 無限幅極限
2.1 極限での性質
幅 → ∞ のとき:
1. 初期化時のNTKは確定的(ランダム性消失)
2. 訓練中、NTKは不変
3. 出力の変化は線形:
f(x; θ_t) - f(x; θ_0) = Θ(x, X)(Θ(X, X))^{-1}(y - f(X; θ_0))
2.2 カーネル回帰との等価性
無限幅NNの訓練 = NTKによるカーネル回帰
予測: f(x) = k(x, X) K^{-1} y
k: NTKカーネル
K = k(X, X): グラム行列
3. Lazy Training
3.1 概念
- 十分に幅が広いと、重みはほとんど動かない
- 初期化近傍で線形化が有効
- 「特徴学習」が起こらない
3.2 限界
| NTK regime | 実際のDL |
|---|---|
| 特徴は固定 | 特徴を学習 |
| 幅に対数的にスケール | 実際のスケーリング則 |
| データ効率が悪い | 転移学習が効く |
4. Feature Learning vs NTK
4.1 Rich regime
- 有限幅では特徴学習が起こる
- 表現がタスクに適応
- NTK理論では説明できない性能
4.2 Mean Field理論
別のアプローチ:無限幅でも特徴学習を捉える。
ニューロンの分布の進化として定式化
→ より実際の深層学習に近い振る舞い
5. 参考文献
- Jacot et al. (2018). "Neural Tangent Kernel" NeurIPS
- Lee et al. (2019). "Wide Neural Networks of Any Depth Evolve as Linear Models" NeurIPS
- Chizat et al. (2019). "On Lazy Training in Differentiable Programming" NeurIPS