スケーリング則

1. スケーリング則の概要

1.1 スケーリング則とは

モデルの性能（損失）がリソース（パラメータ数、データ量、計算量）と冪乗則（Power Law）の関係を示すこと。

$$L = \frac{A}{X^\alpha}$$

$L$：損失、$X$：リソース（N, D, or C）、$\alpha$：スケーリング指数

1.2 なぜ重要か

予測可能性：小規模実験から大規模モデルの性能を予測
リソース配分：最適な訓練戦略の決定
投資判断：必要な計算資源の見積もり
科学的理解：深層学習の基礎理論への洞察

1.3 主要な変数

$N$：モデルのパラメータ数
$D$：訓練データのトークン数
$C$：訓練の計算量（FLOPs）
$L$：損失（Cross-entropy loss）

計算量の近似：$C \approx 6ND$（forward + backward）

2. Kaplan則（OpenAI 2020）

2.1 発見

Kaplan et al. (2020) "Scaling Laws for Neural Language Models"

性能は3つの要因それぞれと冪乗則関係：

$$L(N) = \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad \alpha_N \approx 0.076$$ $$L(D) = \left(\frac{D_c}{D}\right)^{\alpha_D}, \quad \alpha_D \approx 0.095$$ $$L(C) = \left(\frac{C_c}{C}\right)^{\alpha_C}, \quad \alpha_C \approx 0.050$$

2.2 統合スケーリング則

N, D両方を考慮した式：

$$L(N, D) = \left[\left(\frac{N_c}{N}\right)^{\alpha_N / \alpha_D} + \frac{D_c}{D}\right]^{\alpha_D}$$

2.3 Kaplan則の含意

パラメータ数がデータ量より重要（指数が小さい→改善が緩やか→増やすべき）
最適配分：計算量の大部分をパラメータ増加に
「大きなモデルをより少ないデータで訓練」

この考えに基づき GPT-3（175B）は約300Bトークンで訓練。

2.4 他の発見

アーキテクチャの詳細（深さ vs 幅）は二次的
形状の最適化より規模の増加が効果的
バッチサイズ、学習率の影響は限定的

3. Chinchilla則（DeepMind 2022）

3.1 Kaplan則への挑戦

Hoffmann et al. (2022) "Training Compute-Optimal Large Language Models"

Kaplan則の問題点：

訓練を途中で止めた実験に基づく
学習率スケジュールが最適でない
データ量の重要性を過小評価

3.2 新しいスケーリング則

より適切に制御された実験から：

$$L(N, D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta}$$

$\alpha \approx 0.34$, $\beta \approx 0.28$, $E$は不可約損失

3.3 Compute-Optimal配分

固定計算量 $C$ のもとで最適なN, Dの比率：

$$N_{opt} \propto C^a, \quad D_{opt} \propto C^b$$

$a \approx 0.5$, $b \approx 0.5$

結論：パラメータとデータを同程度にスケール！

3.4 Chinchillaの実証

モデル	パラメータ	データ	計算量
Gopher	280B	300B tokens	〜5×10²³ FLOPs
Chinchilla	70B	1.4T tokens	〜5×10²³ FLOPs

同じ計算量で、Chinchillaの方が性能良好！

3.5 Kaplan vs Chinchilla

観点	Kaplan	Chinchilla
最適N:D比	N優先	ほぼ等しくスケール
GPT-3 (175B) の最適データ	〜300B	〜3.5T
推論効率	考慮なし	小モデル+多データが推論効率良

4. Compute-Optimal訓練

4.1 定義

固定計算予算のもとで最良の性能を達成するN, Dの選択。

4.2 Chinchilla比率

経験則：1パラメータあたり約20トークン

7Bモデル → 140Bトークン
70Bモデル → 1.4Tトークン
700Bモデル → 14Tトークン

4.3 実際のモデルとの比較

モデル	パラメータ	データ	Chinchilla最適？
GPT-3	175B	300B	under-trained
LLaMA 1 (65B)	65B	1.4T	over-trained
LLaMA 2 (70B)	70B	2T	over-trained
LLaMA 3 (70B)	70B	15T	大幅over-trained

4.4 Over-trainingの利点

Chinchilla最適を超えてデータを増やす理由：

推論コスト：小モデルは推論が安い
デプロイ：エッジデバイスへの展開
データ品質：高品質データの有効活用
新しいスケーリング研究：over-trainingでも性能は向上し続ける

5. スケーリングを超えて

5.1 スケーリングの限界

データ枯渇：高品質テキストの限界
計算コスト：指数的増加は持続不可能
収穫逓減：冪乗則の緩やかな改善
能力の壁：一部タスクはスケールで解決しない

5.2 データ側の革新

合成データ：モデルによるデータ生成
データ品質向上：フィルタリング、重複排除
カリキュラム学習：順序の最適化
マルチモーダルデータ：画像、音声、動画

5.3 効率化の方向性

MoE：条件付き計算（→ MoE詳細）
蒸留：大モデルから小モデルへ
量子化：低精度推論
アーキテクチャ改良：SSM、効率的Attention

5.4 Test-Time Compute

推論時の計算量を増やす：

Chain-of-Thought
Self-Consistency
Tree-of-Thought
反復的推論

「訓練時計算」から「推論時計算」への移行。

6. 実践的含意

6.1 モデル開発者向け

まず小規模実験でスケーリング曲線を推定
目標計算量から最適なN, Dを決定
推論コストを考慮してover-trainingを検討

6.2 研究者向け

スケーリング則を超える方法の探索
データ効率の改善
タスク別スケーリングの理解

6.3 ユーザー向け

大きなモデルが常に良いわけではない
訓練データ量とのバランスが重要
タスクに応じた適切なモデルサイズ選択

7. 参考文献

主要論文

Kaplan et al. (2020) "Scaling Laws for Neural Language Models", arXiv
Hoffmann et al. (2022) "Training Compute-Optimal Large Language Models" (Chinchilla), arXiv
Henighan et al. (2020) "Scaling Laws for Autoregressive Generative Modeling"

発展的研究

Clark et al. (2022) "Unified Scaling Laws for Routed Language Models" (MoEスケーリング)
Muennighoff et al. (2023) "Scaling Data-Constrained Language Models"
Sardana & Frankle (2023) "Beyond Chinchilla-Optimal: Accounting for Inference"