Jacot et al. (2018)の発見:
無限幅のニューラルネットワークは
カーネル法として理解できる
訓練中、カーネル(NTK)は変化しない
→ 線形モデルとして解析可能
NTK: Θ(x, x') = ⟨∇_θ f(x; θ), ∇_θ f(x'; θ)⟩
f(x; θ): ニューラルネットワーク
θ: パラメータ
∇_θ f: パラメータに関する勾配
幅 → ∞ のとき:
1. 初期化時のNTKは確定的(ランダム性消失)
2. 訓練中、NTKは不変
3. 出力の変化は線形:
f(x; θ_t) - f(x; θ_0) = Θ(x, X)(Θ(X, X))^{-1}(y - f(X; θ_0))
無限幅NNの訓練 = NTKによるカーネル回帰
予測: f(x) = k(x, X) K^{-1} y
k: NTKカーネル
K = k(X, X): グラム行列
| NTK regime | 実際のDL |
|---|---|
| 特徴は固定 | 特徴を学習 |
| 幅に対数的にスケール | 実際のスケーリング則 |
| データ効率が悪い | 転移学習が効く |
別のアプローチ:無限幅でも特徴学習を捉える。
ニューロンの分布の進化として定式化
→ より実際の深層学習に近い振る舞い