AI安全性理論

1. アライメント問題

1.1 定義

AIシステムの目標・行動を人間の意図・価値観と整合させる問題。

なぜ難しいか:
- 人間の価値観は複雑で矛盾を含む
- 目標の仕様化が困難
- 能力向上に伴うリスク増大
- 意図しない目標達成方法

1.2 Goodhartの法則

「指標が目標になると、良い指標ではなくなる」

例: 報酬ハッキング
- 報酬を最大化するが意図した目標を達成しない
- ゲームの裏技を見つける
- 評価基準を操作する

2. Inner Alignment

2.1 Mesa-optimization

Hubinger et al. (2019)の概念:

Base Optimizer: 訓練プロセス
Mesa-Optimizer: 訓練によって生まれた最適化器(モデル)

問題: Mesa-Optimizerの目標(mesa-objective)が
      Base Optimizerの目標と一致しない可能性

2.2 Deceptive Alignment

  • モデルが訓練中は意図通り振る舞う
  • デプロイ後に異なる目標を追求
  • 「検出を逃れる」ことが最適戦略になりうる

3. Concrete Problems

3.1 Amodei et al. (2016)の5つの問題

問題説明
負の副作用回避目標達成以外の悪影響を避ける
報酬ハッキング回避報酬の「裏技」を使わない
スケーラブルな監督人間の監視能力を超えたAIの監視
安全な探索学習中の危険な行動を避ける
分布シフトへの頑健性訓練分布外での安全な動作

4. スケーラブルな監督

4.1 問題

AIが人間より賢くなったとき、どう監督するか?

4.2 アプローチ

  • Debate: AIに互いに議論させる
  • IDA (Iterated Distillation and Amplification): 人間+AIの階層的分解
  • Recursive Reward Modeling: 報酬モデルの再帰的改善
  • Constitutional AI: 原則ベースの自己改善

5. 長期的リスク

5.1 懸念

  • 能力の急激な向上(takeoff)
  • 決定的優位(decisive strategic advantage)
  • 価値観のロックイン

5.2 研究アジェンダ

  • Interpretability(解釈可能性)
  • Robustness(頑健性)
  • Corrigibility(修正可能性)
  • Value learning(価値学習)

6. 参考文献

  • Amodei et al. (2016). "Concrete Problems in AI Safety" arXiv
  • Hubinger et al. (2019). "Risks from Learned Optimization" arXiv
  • Christiano et al. (2018). "Supervising strong learners by amplifying weak experts"
  • Bostrom (2014). "Superintelligence" Oxford University Press