1. スケーリング則の概要
1.1 スケーリング則とは
モデルの性能(損失)がリソース(パラメータ数、データ量、計算量)と冪乗則(Power Law)の関係を示すこと。
$$L = \frac{A}{X^\alpha}$$
$L$:損失、$X$:リソース(N, D, or C)、$\alpha$:スケーリング指数
1.2 なぜ重要か
- 予測可能性:小規模実験から大規模モデルの性能を予測
- リソース配分:最適な訓練戦略の決定
- 投資判断:必要な計算資源の見積もり
- 科学的理解:深層学習の基礎理論への洞察
1.3 主要な変数
- $N$:モデルのパラメータ数
- $D$:訓練データのトークン数
- $C$:訓練の計算量(FLOPs)
- $L$:損失(Cross-entropy loss)
計算量の近似:$C \approx 6ND$(forward + backward)
2. Kaplan則(OpenAI 2020)
2.1 発見
Kaplan et al. (2020) "Scaling Laws for Neural Language Models"
性能は3つの要因それぞれと冪乗則関係:
$$L(N) = \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad \alpha_N \approx 0.076$$
$$L(D) = \left(\frac{D_c}{D}\right)^{\alpha_D}, \quad \alpha_D \approx 0.095$$
$$L(C) = \left(\frac{C_c}{C}\right)^{\alpha_C}, \quad \alpha_C \approx 0.050$$
2.2 統合スケーリング則
N, D両方を考慮した式:
$$L(N, D) = \left[\left(\frac{N_c}{N}\right)^{\alpha_N / \alpha_D} + \frac{D_c}{D}\right]^{\alpha_D}$$
2.3 Kaplan則の含意
- パラメータ数がデータ量より重要(指数が小さい→改善が緩やか→増やすべき)
- 最適配分:計算量の大部分をパラメータ増加に
- 「大きなモデルをより少ないデータで訓練」
この考えに基づき GPT-3(175B)は約300Bトークンで訓練。
2.4 他の発見
- アーキテクチャの詳細(深さ vs 幅)は二次的
- 形状の最適化より規模の増加が効果的
- バッチサイズ、学習率の影響は限定的
3. Chinchilla則(DeepMind 2022)
3.1 Kaplan則への挑戦
Hoffmann et al. (2022) "Training Compute-Optimal Large Language Models"
Kaplan則の問題点:
- 訓練を途中で止めた実験に基づく
- 学習率スケジュールが最適でない
- データ量の重要性を過小評価
3.2 新しいスケーリング則
より適切に制御された実験から:
$$L(N, D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta}$$
$\alpha \approx 0.34$, $\beta \approx 0.28$, $E$は不可約損失
3.3 Compute-Optimal配分
固定計算量 $C$ のもとで最適なN, Dの比率:
$$N_{opt} \propto C^a, \quad D_{opt} \propto C^b$$
$a \approx 0.5$, $b \approx 0.5$
結論:パラメータとデータを同程度にスケール!
3.4 Chinchillaの実証
| モデル |
パラメータ |
データ |
計算量 |
| Gopher |
280B |
300B tokens |
〜5×10²³ FLOPs |
| Chinchilla |
70B |
1.4T tokens |
〜5×10²³ FLOPs |
同じ計算量で、Chinchillaの方が性能良好!
3.5 Kaplan vs Chinchilla
| 観点 |
Kaplan |
Chinchilla |
| 最適N:D比 |
N優先 |
ほぼ等しくスケール |
| GPT-3 (175B) の最適データ |
〜300B |
〜3.5T |
| 推論効率 |
考慮なし |
小モデル+多データが推論効率良 |
4. Compute-Optimal訓練
4.1 定義
固定計算予算のもとで最良の性能を達成するN, Dの選択。
4.2 Chinchilla比率
経験則:1パラメータあたり約20トークン
- 7Bモデル → 140Bトークン
- 70Bモデル → 1.4Tトークン
- 700Bモデル → 14Tトークン
4.3 実際のモデルとの比較
| モデル |
パラメータ |
データ |
Chinchilla最適? |
| GPT-3 |
175B |
300B |
under-trained |
| LLaMA 1 (65B) |
65B |
1.4T |
over-trained |
| LLaMA 2 (70B) |
70B |
2T |
over-trained |
| LLaMA 3 (70B) |
70B |
15T |
大幅over-trained |
4.4 Over-trainingの利点
Chinchilla最適を超えてデータを増やす理由:
- 推論コスト:小モデルは推論が安い
- デプロイ:エッジデバイスへの展開
- データ品質:高品質データの有効活用
- 新しいスケーリング研究:over-trainingでも性能は向上し続ける
5. スケーリングを超えて
5.1 スケーリングの限界
- データ枯渇:高品質テキストの限界
- 計算コスト:指数的増加は持続不可能
- 収穫逓減:冪乗則の緩やかな改善
- 能力の壁:一部タスクはスケールで解決しない
5.2 データ側の革新
- 合成データ:モデルによるデータ生成
- データ品質向上:フィルタリング、重複排除
- カリキュラム学習:順序の最適化
- マルチモーダルデータ:画像、音声、動画
5.3 効率化の方向性
- MoE:条件付き計算(→ MoE詳細)
- 蒸留:大モデルから小モデルへ
- 量子化:低精度推論
- アーキテクチャ改良:SSM、効率的Attention
5.4 Test-Time Compute
推論時の計算量を増やす:
- Chain-of-Thought
- Self-Consistency
- Tree-of-Thought
- 反復的推論
「訓練時計算」から「推論時計算」への移行。
6. 実践的含意
6.1 モデル開発者向け
- まず小規模実験でスケーリング曲線を推定
- 目標計算量から最適なN, Dを決定
- 推論コストを考慮してover-trainingを検討
6.2 研究者向け
- スケーリング則を超える方法の探索
- データ効率の改善
- タスク別スケーリングの理解
6.3 ユーザー向け
- 大きなモデルが常に良いわけではない
- 訓練データ量とのバランスが重要
- タスクに応じた適切なモデルサイズ選択
7. 参考文献
主要論文
- Kaplan et al. (2020) "Scaling Laws for Neural Language Models", arXiv
- Hoffmann et al. (2022) "Training Compute-Optimal Large Language Models" (Chinchilla), arXiv
- Henighan et al. (2020) "Scaling Laws for Autoregressive Generative Modeling"
発展的研究
- Clark et al. (2022) "Unified Scaling Laws for Routed Language Models" (MoEスケーリング)
- Muennighoff et al. (2023) "Scaling Data-Constrained Language Models"
- Sardana & Frankle (2023) "Beyond Chinchilla-Optimal: Accounting for Inference"
関連ページ