スケーリング則

LLMの性能はパラメータ数、データ量、計算量と冪乗則の関係を示す。Kaplan則(2020)とChinchilla則(2022)の比較。Compute-Optimal訓練。スケーリングの限界と今後。

最終更新:2025年11月

1. スケーリング則の概要

1.1 スケーリング則とは

モデルの性能(損失)がリソース(パラメータ数、データ量、計算量)と冪乗則(Power Law)の関係を示すこと。

$$L = \frac{A}{X^\alpha}$$

$L$:損失、$X$:リソース(N, D, or C)、$\alpha$:スケーリング指数

1.2 なぜ重要か

  • 予測可能性:小規模実験から大規模モデルの性能を予測
  • リソース配分:最適な訓練戦略の決定
  • 投資判断:必要な計算資源の見積もり
  • 科学的理解:深層学習の基礎理論への洞察

1.3 主要な変数

  • $N$:モデルのパラメータ数
  • $D$:訓練データのトークン数
  • $C$:訓練の計算量(FLOPs)
  • $L$:損失(Cross-entropy loss)

計算量の近似:$C \approx 6ND$(forward + backward)

2. Kaplan則(OpenAI 2020)

2.1 発見

Kaplan et al. (2020) "Scaling Laws for Neural Language Models"

性能は3つの要因それぞれと冪乗則関係:

$$L(N) = \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad \alpha_N \approx 0.076$$ $$L(D) = \left(\frac{D_c}{D}\right)^{\alpha_D}, \quad \alpha_D \approx 0.095$$ $$L(C) = \left(\frac{C_c}{C}\right)^{\alpha_C}, \quad \alpha_C \approx 0.050$$

2.2 統合スケーリング則

N, D両方を考慮した式:

$$L(N, D) = \left[\left(\frac{N_c}{N}\right)^{\alpha_N / \alpha_D} + \frac{D_c}{D}\right]^{\alpha_D}$$

2.3 Kaplan則の含意

  • パラメータ数がデータ量より重要(指数が小さい→改善が緩やか→増やすべき)
  • 最適配分:計算量の大部分をパラメータ増加に
  • 「大きなモデルをより少ないデータで訓練」

この考えに基づき GPT-3(175B)は約300Bトークンで訓練。

2.4 他の発見

  • アーキテクチャの詳細(深さ vs 幅)は二次的
  • 形状の最適化より規模の増加が効果的
  • バッチサイズ、学習率の影響は限定的

3. Chinchilla則(DeepMind 2022)

3.1 Kaplan則への挑戦

Hoffmann et al. (2022) "Training Compute-Optimal Large Language Models"

Kaplan則の問題点:

  • 訓練を途中で止めた実験に基づく
  • 学習率スケジュールが最適でない
  • データ量の重要性を過小評価

3.2 新しいスケーリング則

より適切に制御された実験から:

$$L(N, D) = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta}$$

$\alpha \approx 0.34$, $\beta \approx 0.28$, $E$は不可約損失

3.3 Compute-Optimal配分

固定計算量 $C$ のもとで最適なN, Dの比率:

$$N_{opt} \propto C^a, \quad D_{opt} \propto C^b$$

$a \approx 0.5$, $b \approx 0.5$

結論:パラメータとデータを同程度にスケール!

3.4 Chinchillaの実証

モデル パラメータ データ 計算量
Gopher 280B 300B tokens 〜5×10²³ FLOPs
Chinchilla 70B 1.4T tokens 〜5×10²³ FLOPs

同じ計算量で、Chinchillaの方が性能良好!

3.5 Kaplan vs Chinchilla

観点 Kaplan Chinchilla
最適N:D比 N優先 ほぼ等しくスケール
GPT-3 (175B) の最適データ 〜300B 〜3.5T
推論効率 考慮なし 小モデル+多データが推論効率良

4. Compute-Optimal訓練

4.1 定義

固定計算予算のもとで最良の性能を達成するN, Dの選択。

4.2 Chinchilla比率

経験則:1パラメータあたり約20トークン

  • 7Bモデル → 140Bトークン
  • 70Bモデル → 1.4Tトークン
  • 700Bモデル → 14Tトークン

4.3 実際のモデルとの比較

モデル パラメータ データ Chinchilla最適?
GPT-3 175B 300B under-trained
LLaMA 1 (65B) 65B 1.4T over-trained
LLaMA 2 (70B) 70B 2T over-trained
LLaMA 3 (70B) 70B 15T 大幅over-trained

4.4 Over-trainingの利点

Chinchilla最適を超えてデータを増やす理由:

  • 推論コスト:小モデルは推論が安い
  • デプロイ:エッジデバイスへの展開
  • データ品質:高品質データの有効活用
  • 新しいスケーリング研究:over-trainingでも性能は向上し続ける

5. スケーリングを超えて

5.1 スケーリングの限界

  • データ枯渇:高品質テキストの限界
  • 計算コスト:指数的増加は持続不可能
  • 収穫逓減:冪乗則の緩やかな改善
  • 能力の壁:一部タスクはスケールで解決しない

5.2 データ側の革新

  • 合成データ:モデルによるデータ生成
  • データ品質向上:フィルタリング、重複排除
  • カリキュラム学習:順序の最適化
  • マルチモーダルデータ:画像、音声、動画

5.3 効率化の方向性

  • MoE:条件付き計算(→ MoE詳細
  • 蒸留:大モデルから小モデルへ
  • 量子化:低精度推論
  • アーキテクチャ改良:SSM、効率的Attention

5.4 Test-Time Compute

推論時の計算量を増やす:

  • Chain-of-Thought
  • Self-Consistency
  • Tree-of-Thought
  • 反復的推論

「訓練時計算」から「推論時計算」への移行。

6. 実践的含意

6.1 モデル開発者向け

  • まず小規模実験でスケーリング曲線を推定
  • 目標計算量から最適なN, Dを決定
  • 推論コストを考慮してover-trainingを検討

6.2 研究者向け

  • スケーリング則を超える方法の探索
  • データ効率の改善
  • タスク別スケーリングの理解

6.3 ユーザー向け

  • 大きなモデルが常に良いわけではない
  • 訓練データ量とのバランスが重要
  • タスクに応じた適切なモデルサイズ選択

7. 参考文献

主要論文

  • Kaplan et al. (2020) "Scaling Laws for Neural Language Models", arXiv
  • Hoffmann et al. (2022) "Training Compute-Optimal Large Language Models" (Chinchilla), arXiv
  • Henighan et al. (2020) "Scaling Laws for Autoregressive Generative Modeling"

発展的研究

  • Clark et al. (2022) "Unified Scaling Laws for Routed Language Models" (MoEスケーリング)
  • Muennighoff et al. (2023) "Scaling Data-Constrained Language Models"
  • Sardana & Frankle (2023) "Beyond Chinchilla-Optimal: Accounting for Inference"

関連ページ