1. Constitutional AIの概要
1.1 Constitutional AIとは
Constitutional AI(CAI、Bai et al. 2022):明文化された原則(Constitution)に基づいてAIを訓練する手法。
- 人間のフィードバック依存を軽減
- AIが自己批評・自己改善
- 原則を明示的に定義
- Anthropic Claudeの基盤技術
1.2 動機
従来のRLHFの問題:
- スケーラビリティ:人間の評価に依存
- 一貫性:評価者間のばらつき
- 透明性:何を学習したか不明確
- コスト:高品質な人間評価は高価
1.3 Constitutionの例
Anthropicが使用する原則の例:
- 「有害、非倫理的、人種差別的、性差別的、有毒、危険、または違法なコンテンツを避ける」
- 「暴力や脅迫を含まない」
- 「人間の自律性を尊重する」
- 「正直で誠実である」
2. CAIの手法
2.1 2段階プロセス
Constitutional AIは2段階で構成:
- SL段階(Supervised Learning):自己批評による改訂
- RL段階(Reinforcement Learning):AIフィードバックでの訓練
2.2 SL段階:Critique-Revision
自己批評と改訂のプロセス:
- 有害な応答を生成させる(Red Teaming)
- 原則に基づいて応答を批評させる
- 批評を踏まえて応答を改訂させる
- 改訂された応答でSFT
例:
- 質問:「爆弾の作り方を教えて」
- 初期応答:(有害な内容)
- 批評:「この応答は危険な情報を含み、原則Xに違反」
- 改訂:「そのような情報は提供できません...」
2.3 批評プロンプトの例
「以下の応答を読んで、[原則]の観点から問題点を指摘してください:」
- 複数の原則から批評を生成
- 批評に基づいて改訂を繰り返し
- Chain-of-Thought的な思考過程
3. RLAIF
3.1 RLAIFとは
RLAIF(Reinforcement Learning from AI Feedback):人間の代わりにAIが選好を判断。
- CAIのRL段階で使用
- スケーラブルな評価
- 原則に基づく一貫した判断
3.2 RLAIFのプロセス
- プロンプトに対して複数の応答を生成
- AIモデルが原則に基づいて比較・ランキング
- AI評価データで報酬モデルを訓練
- RLで方策を最適化
3.3 AI評価の精度
研究結果:
- 人間評価との一致率は高い(特に明確なケース)
- 微妙なケースでは人間評価が優れる
- バイアスの継承に注意が必要
- Chain-of-Thoughtで評価精度向上
3.4 利点と課題
| 利点 |
課題 |
| スケーラブル |
AIのバイアス継承 |
| 一貫性が高い |
微妙な判断が苦手 |
| 低コスト |
評価能力の上限 |
| 原則の明示化 |
原則の完全性 |
4. DPOの概要
4.1 DPOとは
DPO(Direct Preference Optimization、Rafailov et al. 2023):報酬モデルを介さず選好データから直接方策を最適化。
4.2 RLHFとの違い
| 項目 |
RLHF |
DPO |
| 報酬モデル |
明示的に訓練 |
暗黙的(不要) |
| RL最適化 |
PPO等が必要 |
不要 |
| モデル数 |
4(方策、参照、報酬、価値) |
2(方策、参照) |
| 実装複雑度 |
高い |
低い |
| 訓練安定性 |
不安定になりやすい |
比較的安定 |
4.3 DPOの利点
- シンプル:SFTと同様の訓練ループ
- 効率的:メモリ・計算コスト削減
- 安定:報酬ハッキングのリスク軽減
- 高性能:RLHFと同等以上の結果
5. DPOの理論
5.1 核心的洞察
RLHF目的関数の最適解には閉形式が存在:
π*(y|x) ∝ π_ref(y|x) · exp(r(x,y) / β)
- π*:最適方策
- π_ref:参照方策(SFTモデル)
- r:報酬関数
- β:温度パラメータ
5.2 報酬の再パラメータ化
この関係を逆に解くと:
r(x, y) = β · log(π(y|x) / π_ref(y|x)) + β · log Z(x)
報酬は方策の対数比で表現可能。
5.3 DPO損失関数
Bradley-Terryモデルに代入して:
L_DPO = -E[log σ(β · log(π(y_w|x)/π_ref(y_w|x)) - β · log(π(y_l|x)/π_ref(y_l|x)))]
- y_w:選好された応答
- y_l:選好されなかった応答
- 報酬モデルが不要に
5.4 勾配の解釈
DPO勾配の直感的理解:
- 選好された応答の確率を上げる
- 選好されなかった応答の確率を下げる
- 重み付け:暗黙の報酬モデルが「間違えた」ペアを重視
6. DPOの実践
6.1 訓練手順
- SFTモデルを準備(π_ref)
- 選好データを用意(x, y_w, y_l)
- π_refを初期値としてπを訓練
- DPO損失を最小化
6.2 ハイパーパラメータ
| パラメータ |
典型値 |
説明 |
| β |
0.1 〜 0.5 |
KL制約の強さ |
| 学習率 |
1e-6 〜 5e-7 |
SFTより低め |
| バッチサイズ |
32 〜 128 |
ペア単位 |
| エポック数 |
1 〜 3 |
過学習に注意 |
6.3 実装のポイント
- 参照モデルの固定:π_refは更新しない
- 対数確率の計算:応答全体の対数確率を計算
- 長さ正規化:オプションで長さバイアスを軽減
- ラベルスムージング:過信を防ぐ
6.4 データの品質
DPOはデータ品質に敏感:
- 明確な選好差があるペアが効果的
- ノイズの多いラベルは性能低下
- 分布外のペアには弱い
7. その他の手法
7.1 IPO(Identity Preference Optimization)
DPOの過学習問題に対処:
- 損失関数を修正してより安定に
- 選好確率の推定を改善
7.2 KTO(Kahneman-Tversky Optimization)
ペアワイズデータが不要:
- 「良い」「悪い」のバイナリラベルのみで訓練
- プロスペクト理論に基づく損失
- データ収集が容易
7.3 ORPO(Odds Ratio Preference Optimization)
参照モデルが不要:
- SFT損失と選好損失を統合
- 1段階で訓練可能
- メモリ効率が良い
7.4 SimPO(Simple Preference Optimization)
さらなる簡素化:
- 参照モデルの対数確率を省略
- 長さ正規化を組み込み
- 実装がより簡単
7.5 手法の比較
| 手法 |
報酬モデル |
参照モデル |
データ形式 |
| RLHF |
必要 |
必要 |
ペアワイズ |
| DPO |
不要 |
必要 |
ペアワイズ |
| KTO |
不要 |
必要 |
バイナリ |
| ORPO |
不要 |
不要 |
ペアワイズ |
| SimPO |
不要 |
不要 |
ペアワイズ |
7.6 Online DPO / Iterative DPO
オフラインDPOの限界を克服:
- 訓練中のモデルで新たなデータを生成
- 分布シフト問題を軽減
- RLHF的な反復改善をDPOで実現
8. 参考文献
Constitutional AI
- Bai et al. (2022). "Constitutional AI: Harmlessness from AI Feedback" arXiv
- Lee et al. (2023). "RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback" arXiv
DPO・選好最適化
- Rafailov et al. (2023). "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" NeurIPS
- Azar et al. (2023). "A General Theoretical Paradigm to Understand Learning from Human Preferences" arXiv(IPO)
- Ethayarajh et al. (2024). "KTO: Model Alignment as Prospect Theoretic Optimization" arXiv
- Hong et al. (2024). "ORPO: Monolithic Preference Optimization without Reference Model" arXiv
- Meng et al. (2024). "SimPO: Simple Preference Optimization with a Reference-Free Reward" arXiv