1. 創発的能力とは
1.1 定義
Wei et al. (2022) の定義:
「小規模モデルでは存在しないが、大規模モデルでは存在する能力」
より具体的には:モデルスケールに対して性能が非線形(不連続)に変化する現象。
1.2 創発の特徴
- 閾値効果:ある規模を超えると突然能力が出現
- 予測困難:小規模実験から大規模の能力を予測できない
- 質的変化:単なる性能向上ではなく、新しい種類の能力
1.3 物理学との類似
相転移のアナロジー:
- 水が氷から液体、気体へ
- 磁石の相転移
- 臨界点を超えると質的に異なる状態
LLMでも「臨界スケール」があるのか?
2. 創発的能力の例
2.1 Chain-of-Thought推論
Wei et al. (2022)。段階的思考を促すプロンプティング。
- 小規模モデル:CoTプロンプトで性能低下
- 大規模モデル:CoTで大幅な性能向上
- 閾値:約100Bパラメータで効果が現れる
例:
Q: Rogerはテニスボールを5個持っています。
2缶のボールを買いました。各缶には3個入っています。
Rogerは今何個のボールを持っていますか?
A: Rogerは最初5個持っていました。
2缶 × 3個 = 6個を買いました。
5 + 6 = 11個。答えは11個です。
2.2 複数桁算術
3桁以上の足し算、掛け算。
- 小規模モデル:ほぼランダム
- 大規模モデル:急激に精度向上
2.3 Word Unscrambling
文字の並べ替え問題。
「elapph → apple」のような問題で突然正解率が上昇。
2.4 その他の例
- 多言語理解:訓練に少ない言語での能力
- コード実行:プログラムの理解と生成
- 常識推論:暗黙の知識の活用
- 指示追従:複雑な指示の理解
2.5 BIG-benchからの発見
Srivastava et al. (2022)。200以上のタスクで評価。
多くのタスクで「突然の」性能向上が観察された。
3. なぜ創発するのか
3.1 仮説1:内部表現の質的変化
スケールにより内部表現が質的に変化。
- 小規模:表面的なパターンマッチング
- 大規模:抽象的な概念の形成
- 臨界点で「理解」が発生
3.2 仮説2:能力の複合
複数の基礎能力が組み合わさって新能力が発現。
- 能力A、B、Cがそれぞれ必要
- 全てが閾値を超えると組み合わせが機能
- 乗算的効果で急激な変化
3.3 仮説3:Grokking
Power et al. (2022)。長時間訓練後の突然の汎化。
スケールがgrokking現象を促進する可能性。
3.4 神経科学的視点
脳の発達でも類似の現象:
- シナプス密度の臨界期
- 能力の段階的発達
- 前頭前皮質の成熟と抽象思考
4. 批判と反論
4.1 Schaeffer et al. (2023)の批判
"Are Emergent Abilities of Large Language Models a Mirage?"
主張:創発は測定のアーティファクトであり、実際には滑らかなスケーリング。
4.2 メトリックの問題
不連続なメトリックが創発の錯覚を生む:
- 完全一致:「apple」と「appel」は両方0点
- 多選択:ランダム=25%、確率が線形増加しても急にジャンプ
連続的メトリックを使うと滑らかな改善:
- Token-level perplexity
- 部分一致スコア
- Brier score
4.3 視覚化の問題
対数スケールでの表示が不連続性を強調。
線形スケールでは滑らかに見えることも。
4.4 反論
- 実用的には閾値効果が存在する
- 「使える」と「使えない」の質的違いは重要
- 連続的改善でもユーザー体験は不連続
- CoTの効果は測定方法に依存しない
4.5 現在の理解
コンセンサス:
- 基礎的な能力は滑らかにスケール
- ただし複合タスクでは閾値効果が見える
- 「創発」の定義と測定に注意が必要
- 実用的にはスケールによる質的変化は重要
5. 含意と展望
5.1 予測可能性への影響
- 創発が本物なら:将来の能力を予測困難
- 連続的なら:スケーリング則で予測可能
5.2 安全性への含意
- 予期せぬ能力の出現リスク
- 危険な能力の閾値は?
- 能力評価の重要性
5.3 研究の方向性
- より良い評価メトリックの設計
- 能力の粒度を細かく分析
- 内部表現の変化を追跡
- 創発の理論的理解
5.4 逆スケーリング
Inverse Scaling Prize:スケールで悪化するタスク。
- 誤った確信
- バイアスの増幅
- 有害コンテンツの巧妙化
「大きい = 良い」の単純な図式への警告。
6. 参考文献
主要論文
- Wei et al. (2022) "Emergent Abilities of Large Language Models", TMLR
- Wei et al. (2022) "Chain-of-Thought Prompting Elicits Reasoning", NeurIPS
- Schaeffer et al. (2023) "Are Emergent Abilities a Mirage?", arXiv
- Srivastava et al. (2022) "Beyond the Imitation Game: BIG-bench"
関連研究
- Power et al. (2022) "Grokking: Generalization Beyond Overfitting"
- McKenzie et al. (2023) "Inverse Scaling: When Bigger Isn't Better"
関連ページ