Neural Tangent Kernel

1. 概要

1.1 NTKとは

Jacot et al. (2018)の発見:

無限幅のニューラルネットワークは
カーネル法として理解できる

訓練中、カーネル(NTK)は変化しない
→ 線形モデルとして解析可能

1.2 定義

NTK: Θ(x, x') = ⟨∇_θ f(x; θ), ∇_θ f(x'; θ)⟩

f(x; θ): ニューラルネットワーク
θ: パラメータ
∇_θ f: パラメータに関する勾配

2. 無限幅極限

2.1 極限での性質

幅 → ∞ のとき:
1. 初期化時のNTKは確定的(ランダム性消失)
2. 訓練中、NTKは不変
3. 出力の変化は線形:
   f(x; θ_t) - f(x; θ_0) = Θ(x, X)(Θ(X, X))^{-1}(y - f(X; θ_0))

2.2 カーネル回帰との等価性

無限幅NNの訓練 = NTKによるカーネル回帰

予測: f(x) = k(x, X) K^{-1} y

k: NTKカーネル
K = k(X, X): グラム行列

3. Lazy Training

3.1 概念

  • 十分に幅が広いと、重みはほとんど動かない
  • 初期化近傍で線形化が有効
  • 「特徴学習」が起こらない

3.2 限界

NTK regime実際のDL
特徴は固定特徴を学習
幅に対数的にスケール実際のスケーリング則
データ効率が悪い転移学習が効く

4. Feature Learning vs NTK

4.1 Rich regime

  • 有限幅では特徴学習が起こる
  • 表現がタスクに適応
  • NTK理論では説明できない性能

4.2 Mean Field理論

別のアプローチ:無限幅でも特徴学習を捉える。

ニューロンの分布の進化として定式化
→ より実際の深層学習に近い振る舞い

5. 参考文献

  • Jacot et al. (2018). "Neural Tangent Kernel" NeurIPS
  • Lee et al. (2019). "Wide Neural Networks of Any Depth Evolve as Linear Models" NeurIPS
  • Chizat et al. (2019). "On Lazy Training in Differentiable Programming" NeurIPS