創発的能力(Emergent Abilities)

LLMはスケールにより突然新しい能力を獲得するように見える。Chain-of-Thought推論、複数桁算術、常識推論など。しかし「創発」は本物か、それとも測定のアーティファクトか?

最終更新:2025年11月

1. 創発的能力とは

1.1 定義

Wei et al. (2022) の定義:

「小規模モデルでは存在しないが、大規模モデルでは存在する能力」

より具体的には:モデルスケールに対して性能が非線形(不連続)に変化する現象。

1.2 創発の特徴

  • 閾値効果:ある規模を超えると突然能力が出現
  • 予測困難:小規模実験から大規模の能力を予測できない
  • 質的変化:単なる性能向上ではなく、新しい種類の能力

1.3 物理学との類似

相転移のアナロジー:

  • 水が氷から液体、気体へ
  • 磁石の相転移
  • 臨界点を超えると質的に異なる状態

LLMでも「臨界スケール」があるのか?

2. 創発的能力の例

2.1 Chain-of-Thought推論

Wei et al. (2022)。段階的思考を促すプロンプティング。

  • 小規模モデル:CoTプロンプトで性能低下
  • 大規模モデル:CoTで大幅な性能向上
  • 閾値:約100Bパラメータで効果が現れる

例:

Q: Rogerはテニスボールを5個持っています。
   2缶のボールを買いました。各缶には3個入っています。
   Rogerは今何個のボールを持っていますか?

A: Rogerは最初5個持っていました。
   2缶 × 3個 = 6個を買いました。
   5 + 6 = 11個。答えは11個です。

2.2 複数桁算術

3桁以上の足し算、掛け算。

  • 小規模モデル:ほぼランダム
  • 大規模モデル:急激に精度向上

2.3 Word Unscrambling

文字の並べ替え問題。

「elapph → apple」のような問題で突然正解率が上昇。

2.4 その他の例

  • 多言語理解:訓練に少ない言語での能力
  • コード実行:プログラムの理解と生成
  • 常識推論:暗黙の知識の活用
  • 指示追従:複雑な指示の理解

2.5 BIG-benchからの発見

Srivastava et al. (2022)。200以上のタスクで評価。

多くのタスクで「突然の」性能向上が観察された。

3. なぜ創発するのか

3.1 仮説1:内部表現の質的変化

スケールにより内部表現が質的に変化。

  • 小規模:表面的なパターンマッチング
  • 大規模:抽象的な概念の形成
  • 臨界点で「理解」が発生

3.2 仮説2:能力の複合

複数の基礎能力が組み合わさって新能力が発現。

  • 能力A、B、Cがそれぞれ必要
  • 全てが閾値を超えると組み合わせが機能
  • 乗算的効果で急激な変化

3.3 仮説3:Grokking

Power et al. (2022)。長時間訓練後の突然の汎化。

スケールがgrokking現象を促進する可能性。

3.4 神経科学的視点

脳の発達でも類似の現象:

  • シナプス密度の臨界期
  • 能力の段階的発達
  • 前頭前皮質の成熟と抽象思考

4. 批判と反論

4.1 Schaeffer et al. (2023)の批判

"Are Emergent Abilities of Large Language Models a Mirage?"

主張:創発は測定のアーティファクトであり、実際には滑らかなスケーリング。

4.2 メトリックの問題

不連続なメトリックが創発の錯覚を生む:

  • 完全一致:「apple」と「appel」は両方0点
  • 多選択:ランダム=25%、確率が線形増加しても急にジャンプ

連続的メトリックを使うと滑らかな改善:

  • Token-level perplexity
  • 部分一致スコア
  • Brier score

4.3 視覚化の問題

対数スケールでの表示が不連続性を強調。

線形スケールでは滑らかに見えることも。

4.4 反論

  • 実用的には閾値効果が存在する
  • 「使える」と「使えない」の質的違いは重要
  • 連続的改善でもユーザー体験は不連続
  • CoTの効果は測定方法に依存しない

4.5 現在の理解

コンセンサス:

  • 基礎的な能力は滑らかにスケール
  • ただし複合タスクでは閾値効果が見える
  • 「創発」の定義と測定に注意が必要
  • 実用的にはスケールによる質的変化は重要

5. 含意と展望

5.1 予測可能性への影響

  • 創発が本物なら:将来の能力を予測困難
  • 連続的なら:スケーリング則で予測可能

5.2 安全性への含意

  • 予期せぬ能力の出現リスク
  • 危険な能力の閾値は?
  • 能力評価の重要性

5.3 研究の方向性

  • より良い評価メトリックの設計
  • 能力の粒度を細かく分析
  • 内部表現の変化を追跡
  • 創発の理論的理解

5.4 逆スケーリング

Inverse Scaling Prize:スケールで悪化するタスク。

  • 誤った確信
  • バイアスの増幅
  • 有害コンテンツの巧妙化

「大きい = 良い」の単純な図式への警告。

6. 参考文献

主要論文

  • Wei et al. (2022) "Emergent Abilities of Large Language Models", TMLR
  • Wei et al. (2022) "Chain-of-Thought Prompting Elicits Reasoning", NeurIPS
  • Schaeffer et al. (2023) "Are Emergent Abilities a Mirage?", arXiv
  • Srivastava et al. (2022) "Beyond the Imitation Game: BIG-bench"

関連研究

  • Power et al. (2022) "Grokking: Generalization Beyond Overfitting"
  • McKenzie et al. (2023) "Inverse Scaling: When Bigger Isn't Better"

関連ページ