事前学習と微調整の役割分担

Pre-trainingとFine-tuningは何を学習しているのか。LIMA論文の「Superficial Alignment仮説」、知識注入とスタイル学習の分離、少量データでの微調整が効く理由。

最終更新:2025年11月

1. 役割分担の概要

1.1 従来の理解

LLMの訓練は2段階で行われる:

  • 事前学習(Pre-training):大規模データでの自己教師あり学習
  • 微調整(Fine-tuning):タスク固有データでの追加訓練

しかし、各段階が「何を」学習しているのかは長らく不明確だった。

1.2 新しい理解:役割の分離

2023年のLIMA論文(Meta)により、明確な役割分担が示された:

  • 事前学習:知識と能力(Knowledge & Capabilities)の獲得
  • 微調整:出力スタイルとフォーマット(Style & Format)の学習

これは「Superficial Alignment Hypothesis」として定式化された。

1.3 計算コストの観点

この役割分担は計算コスト配分にも反映:

  • 事前学習:全訓練時間の99%以上、数千〜数万GPU日
  • SFT:数時間〜数日
  • RLHF/DPO:数日〜数週間

微調整の計算量は事前学習の0.1%未満。

2. LIMA論文の洞察

2.1 論文の概要

LIMA: Less Is More for Alignment(Zhou et al., 2023, Meta)

核心的主張:

"Almost all knowledge in large language models is learned during pretraining, and only limited instruction tuning data is necessary to teach models to produce high quality output."
(LLMの知識はほぼすべて事前学習で獲得され、高品質な出力を生成するための微調整データはごく少量で十分)

2.2 実験設定

  • ベースモデル:LLaMA 65B
  • 微調整データ:わずか1,000例(高品質、手作業で厳選)
  • 比較対象:GPT-4、Claude、Bard、DaVinci003
  • RLHFなし:純粋にSFTのみ

2.3 主要な結果

人間評価による比較:

  • LIMA vs GPT-4:43%の質問でLIMAが同等以上
  • LIMA vs Bard:58%の質問でLIMAが優位
  • LIMA vs DaVinci003:65%の質問でLIMAが優位

わずか1,000例の微調整で、数百万例で訓練されたモデルに匹敵。

2.4 データ品質の重要性

LIMAデータセットの特徴:

  • 厳選されたソース:Stack Exchange、wikiHow、Reddit等の高品質投稿
  • 手動フィルタリング:専門家による品質確認
  • 多様性:幅広いトピックと応答スタイル
  • 長さ:平均的に長く詳細な応答

3. Superficial Alignment仮説

3.1 仮説の定式化

Superficial Alignment Hypothesis

"A model's knowledge and capabilities are learnt almost entirely during pretraining, while alignment teaches it which subdistribution of formats should be used when interacting with users."
(モデルの知識と能力はほぼ完全に事前学習で獲得され、アライメント(微調整)はユーザーとの対話時にどのフォーマットの部分分布を使うべきかを教えるだけ)

3.2 「表面的」の意味

微調整が「表面的(Superficial)」と呼ばれる理由:

  • 新しい知識を追加しない:事前学習で獲得済み
  • 能力を増強しない:潜在能力を引き出すだけ
  • フォーマット変換のみ:「どう表現するか」の学習

3.3 メタファーによる理解

図書館司書のメタファー:

  • 事前学習:図書館の蔵書(知識)を読み込む
  • 微調整:来館者にどう案内するか(対応方法)を学ぶ

司書は新しい本を読まなくても、案内の仕方を改善できる。

3.4 数学的解釈

事前学習モデルは多様な出力分布を持つ:

  • Webテキストスタイル(カジュアル)
  • 論文スタイル(形式的)
  • 対話スタイル(質疑応答形式)
  • コードスタイル(技術的)

微調整は「対話スタイル」の部分分布を選択的に強化。

4. 実験的証拠

4.1 スケーリング実験(LIMA)

微調整データ量と性能の関係:

  • 250例:基本的な対話能力を獲得
  • 500例:大幅な品質向上
  • 1,000例:商用モデルに匹敵
  • 2,000例以上:限界収益逓減

少量データで急速に改善し、その後は頭打ち。

4.2 データ品質 vs 量

追加実験の結果:

  • 高品質1,000例 > 低品質10,000例
  • 品質を維持しつつ量を増やすと性能向上
  • 品質を犠牲にして量を増やすと性能低下

「量より質」が明確に支持された。

4.3 Alpaca実験

Alpaca(Stanford, 2023):

  • LLaMA 7Bを52K例の合成データで微調整
  • GPT-3.5によるデータ生成
  • $500以下のコストで商用品質に接近

LIMAとは異なるアプローチだが、同様に微調整の効率性を実証。

4.4 Probing研究

内部表現の分析(Probing)から:

  • 知識の局在:事前学習後に既に存在
  • 微調整による変化:表現は大きく変わらない
  • 出力層の変化:フォーマット関連の調整のみ

5. 実践的含意

5.1 データ戦略の最適化

事前学習データ:

  • 量と多様性が最重要
  • 知識のカバレッジを最大化
  • ドメイン固有知識は事前学習で注入

微調整データ:

  • 品質が最重要(量より質)
  • 望ましいスタイルの例示
  • 多様なフォーマットのカバー
  • 1,000〜10,000例で十分な場合が多い

5.2 コスト効率化

LIMA仮説に基づくコスト削減:

  • 微調整データ収集:大規模収集は不要、厳選が重要
  • RLHF:必須ではない場合も(LIMAはSFTのみ)
  • 反復改善:少量の高品質データを段階的に追加

5.3 ドメイン適応への示唆

新しいドメインへの適応:

  • 知識が不足:事前学習の継続(Continual Pre-training)が必要
  • スタイルが異なる:少量の微調整で対応可能
  • 両方:まず継続事前学習、次に微調整

5.4 カスタマイズの指針

ユースケース別推奨アプローチ:

目的 推奨手法 データ量目安
出力フォーマット変更 SFT / Prompt Engineering 100-1,000例
応答スタイル調整 SFT + DPO 1,000-10,000例
新ドメイン知識追加 Continual Pre-training 数十億トークン
特定タスク特化 Full Fine-tuning / LoRA 10,000-100,000例

6. 議論と批判

6.1 仮説の限界

Superficial Alignmentが当てはまらない場合:

  • RLHF/DPOの効果:単なるスタイル以上の変化が観察される
  • 安全性訓練:有害出力の抑制は「フォーマット」を超える
  • 複雑な推論:CoTプロンプティングでの能力向上

6.2 反論と応答

「微調整で新しい能力が生まれる」への反論:

  • 潜在能力の「引き出し」であり「創造」ではない
  • 事前学習データに含まれるパターンの強化
  • プロンプトでも同様の効果が得られる場合が多い

6.3 RLHF vs SFT議論

RLHFは必要か?

  • LIMA:SFTのみで十分な品質
  • InstructGPT:RLHFで大幅改善
  • 現在の理解
    • 基本的な対話能力:SFTで十分
    • 微妙な選好の学習:RLHFが有効
    • 安全性強化:RLHFが重要

6.4 スケールとの関係

モデルサイズによる違い:

  • 小規模モデル(7B以下):微調整の効果が大きい
  • 大規模モデル(70B以上):事前学習での能力が高く、微調整効果は限定的
  • 解釈:大規模モデルほどSuperficial Alignment仮説が当てはまりやすい

6.5 継続事前学習との関係

Continual Pre-trainingの位置づけ:

  • 新しいドメイン知識の注入
  • SFTより計算コストが高い
  • 知識更新には事前学習ベースのアプローチが必要

「表面的」な微調整では対応できない領域の存在を示唆。

7. 参考文献

主要論文

  • Zhou et al. (2023). "LIMA: Less Is More for Alignment" NeurIPS
  • Taori et al. (2023). "Alpaca: A Strong, Replicable Instruction-Following Model" Stanford
  • Ouyang et al. (2022). "Training language models to follow instructions with human feedback" NeurIPS(InstructGPT)
  • Wang et al. (2023). "How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources"
  • Gudibande et al. (2023). "The False Promise of Imitating Proprietary LLMs"

関連リソース