1. アライメント問題
1.1 定義
AIシステムの目標・行動を人間の意図・価値観と整合させる問題。
なぜ難しいか:
- 人間の価値観は複雑で矛盾を含む
- 目標の仕様化が困難
- 能力向上に伴うリスク増大
- 意図しない目標達成方法
1.2 Goodhartの法則
「指標が目標になると、良い指標ではなくなる」
例: 報酬ハッキング
- 報酬を最大化するが意図した目標を達成しない
- ゲームの裏技を見つける
- 評価基準を操作する
2. Inner Alignment
2.1 Mesa-optimization
Hubinger et al. (2019)の概念:
Base Optimizer: 訓練プロセス
Mesa-Optimizer: 訓練によって生まれた最適化器(モデル)
問題: Mesa-Optimizerの目標(mesa-objective)が
Base Optimizerの目標と一致しない可能性
2.2 Deceptive Alignment
- モデルが訓練中は意図通り振る舞う
- デプロイ後に異なる目標を追求
- 「検出を逃れる」ことが最適戦略になりうる
3. Concrete Problems
3.1 Amodei et al. (2016)の5つの問題
| 問題 | 説明 |
| 負の副作用回避 | 目標達成以外の悪影響を避ける |
| 報酬ハッキング回避 | 報酬の「裏技」を使わない |
| スケーラブルな監督 | 人間の監視能力を超えたAIの監視 |
| 安全な探索 | 学習中の危険な行動を避ける |
| 分布シフトへの頑健性 | 訓練分布外での安全な動作 |
4. スケーラブルな監督
4.1 問題
AIが人間より賢くなったとき、どう監督するか?
4.2 アプローチ
- Debate: AIに互いに議論させる
- IDA (Iterated Distillation and Amplification): 人間+AIの階層的分解
- Recursive Reward Modeling: 報酬モデルの再帰的改善
- Constitutional AI: 原則ベースの自己改善
5. 長期的リスク
5.1 懸念
- 能力の急激な向上(takeoff)
- 決定的優位(decisive strategic advantage)
- 価値観のロックイン
5.2 研究アジェンダ
- Interpretability(解釈可能性)
- Robustness(頑健性)
- Corrigibility(修正可能性)
- Value learning(価値学習)
6. 参考文献
- Amodei et al. (2016). "Concrete Problems in AI Safety" arXiv
- Hubinger et al. (2019). "Risks from Learned Optimization" arXiv
- Christiano et al. (2018). "Supervising strong learners by amplifying weak experts"
- Bostrom (2014). "Superintelligence" Oxford University Press