Neural Tangent Kernel

1. 概要

1.1 NTKとは

Jacot et al. (2018)の発見：

無限幅のニューラルネットワークは
カーネル法として理解できる

訓練中、カーネル（NTK）は変化しない
→ 線形モデルとして解析可能

1.2 定義

NTK: Θ(x, x') = ⟨∇_θ f(x; θ), ∇_θ f(x'; θ)⟩

f(x; θ): ニューラルネットワーク
θ: パラメータ
∇_θ f: パラメータに関する勾配

2. 無限幅極限

2.1 極限での性質

幅 → ∞ のとき:
1. 初期化時のNTKは確定的（ランダム性消失）
2. 訓練中、NTKは不変
3. 出力の変化は線形:
   f(x; θ_t) - f(x; θ_0) = Θ(x, X)(Θ(X, X))^{-1}(y - f(X; θ_0))

2.2 カーネル回帰との等価性

無限幅NNの訓練 = NTKによるカーネル回帰

予測: f(x) = k(x, X) K^{-1} y

k: NTKカーネル
K = k(X, X): グラム行列

3. Lazy Training

3.1 概念

十分に幅が広いと、重みはほとんど動かない
初期化近傍で線形化が有効
「特徴学習」が起こらない

3.2 限界

NTK regime	実際のDL
特徴は固定	特徴を学習
幅に対数的にスケール	実際のスケーリング則
データ効率が悪い	転移学習が効く

4. Feature Learning vs NTK

4.1 Rich regime

有限幅では特徴学習が起こる
表現がタスクに適応
NTK理論では説明できない性能

4.2 Mean Field理論

別のアプローチ：無限幅でも特徴学習を捉える。

ニューロンの分布の進化として定式化
→ より実際の深層学習に近い振る舞い

5. 参考文献

Jacot et al. (2018). "Neural Tangent Kernel" NeurIPS
Lee et al. (2019). "Wide Neural Networks of Any Depth Evolve as Linear Models" NeurIPS
Chizat et al. (2019). "On Lazy Training in Differentiable Programming" NeurIPS