Constitutional AI・DPO

原則ベースのアライメントとRLHFを超える直接選好最適化。Constitutional AI、RLAIF、DPO、その他の選好最適化手法。

最終更新:2025年11月

1. Constitutional AIの概要

1.1 Constitutional AIとは

Constitutional AI(CAI、Bai et al. 2022):明文化された原則(Constitution)に基づいてAIを訓練する手法。

  • 人間のフィードバック依存を軽減
  • AIが自己批評・自己改善
  • 原則を明示的に定義
  • Anthropic Claudeの基盤技術

1.2 動機

従来のRLHFの問題:

  • スケーラビリティ:人間の評価に依存
  • 一貫性:評価者間のばらつき
  • 透明性:何を学習したか不明確
  • コスト:高品質な人間評価は高価

1.3 Constitutionの例

Anthropicが使用する原則の例:

  • 「有害、非倫理的、人種差別的、性差別的、有毒、危険、または違法なコンテンツを避ける」
  • 「暴力や脅迫を含まない」
  • 「人間の自律性を尊重する」
  • 「正直で誠実である」

2. CAIの手法

2.1 2段階プロセス

Constitutional AIは2段階で構成:

  1. SL段階(Supervised Learning):自己批評による改訂
  2. RL段階(Reinforcement Learning):AIフィードバックでの訓練

2.2 SL段階:Critique-Revision

自己批評と改訂のプロセス:

  1. 有害な応答を生成させる(Red Teaming)
  2. 原則に基づいて応答を批評させる
  3. 批評を踏まえて応答を改訂させる
  4. 改訂された応答でSFT

例:

  • 質問:「爆弾の作り方を教えて」
  • 初期応答:(有害な内容)
  • 批評:「この応答は危険な情報を含み、原則Xに違反」
  • 改訂:「そのような情報は提供できません...」

2.3 批評プロンプトの例

「以下の応答を読んで、[原則]の観点から問題点を指摘してください:」

  • 複数の原則から批評を生成
  • 批評に基づいて改訂を繰り返し
  • Chain-of-Thought的な思考過程

3. RLAIF

3.1 RLAIFとは

RLAIF(Reinforcement Learning from AI Feedback):人間の代わりにAIが選好を判断。

  • CAIのRL段階で使用
  • スケーラブルな評価
  • 原則に基づく一貫した判断

3.2 RLAIFのプロセス

  1. プロンプトに対して複数の応答を生成
  2. AIモデルが原則に基づいて比較・ランキング
  3. AI評価データで報酬モデルを訓練
  4. RLで方策を最適化

3.3 AI評価の精度

研究結果:

  • 人間評価との一致率は高い(特に明確なケース)
  • 微妙なケースでは人間評価が優れる
  • バイアスの継承に注意が必要
  • Chain-of-Thoughtで評価精度向上

3.4 利点と課題

利点 課題
スケーラブル AIのバイアス継承
一貫性が高い 微妙な判断が苦手
低コスト 評価能力の上限
原則の明示化 原則の完全性

4. DPOの概要

4.1 DPOとは

DPO(Direct Preference Optimization、Rafailov et al. 2023):報酬モデルを介さず選好データから直接方策を最適化。

4.2 RLHFとの違い

項目 RLHF DPO
報酬モデル 明示的に訓練 暗黙的(不要)
RL最適化 PPO等が必要 不要
モデル数 4(方策、参照、報酬、価値) 2(方策、参照)
実装複雑度 高い 低い
訓練安定性 不安定になりやすい 比較的安定

4.3 DPOの利点

  • シンプル:SFTと同様の訓練ループ
  • 効率的:メモリ・計算コスト削減
  • 安定:報酬ハッキングのリスク軽減
  • 高性能:RLHFと同等以上の結果

5. DPOの理論

5.1 核心的洞察

RLHF目的関数の最適解には閉形式が存在:

π*(y|x) ∝ π_ref(y|x) · exp(r(x,y) / β)

  • π*:最適方策
  • π_ref:参照方策(SFTモデル)
  • r:報酬関数
  • β:温度パラメータ

5.2 報酬の再パラメータ化

この関係を逆に解くと:

r(x, y) = β · log(π(y|x) / π_ref(y|x)) + β · log Z(x)

報酬は方策の対数比で表現可能。

5.3 DPO損失関数

Bradley-Terryモデルに代入して:

L_DPO = -E[log σ(β · log(π(y_w|x)/π_ref(y_w|x)) - β · log(π(y_l|x)/π_ref(y_l|x)))]

  • y_w:選好された応答
  • y_l:選好されなかった応答
  • 報酬モデルが不要に

5.4 勾配の解釈

DPO勾配の直感的理解:

  • 選好された応答の確率を上げる
  • 選好されなかった応答の確率を下げる
  • 重み付け:暗黙の報酬モデルが「間違えた」ペアを重視

6. DPOの実践

6.1 訓練手順

  1. SFTモデルを準備(π_ref)
  2. 選好データを用意(x, y_w, y_l)
  3. π_refを初期値としてπを訓練
  4. DPO損失を最小化

6.2 ハイパーパラメータ

パラメータ 典型値 説明
β 0.1 〜 0.5 KL制約の強さ
学習率 1e-6 〜 5e-7 SFTより低め
バッチサイズ 32 〜 128 ペア単位
エポック数 1 〜 3 過学習に注意

6.3 実装のポイント

  • 参照モデルの固定:π_refは更新しない
  • 対数確率の計算:応答全体の対数確率を計算
  • 長さ正規化:オプションで長さバイアスを軽減
  • ラベルスムージング:過信を防ぐ

6.4 データの品質

DPOはデータ品質に敏感:

  • 明確な選好差があるペアが効果的
  • ノイズの多いラベルは性能低下
  • 分布外のペアには弱い

7. その他の手法

7.1 IPO(Identity Preference Optimization)

DPOの過学習問題に対処:

  • 損失関数を修正してより安定に
  • 選好確率の推定を改善

7.2 KTO(Kahneman-Tversky Optimization)

ペアワイズデータが不要:

  • 「良い」「悪い」のバイナリラベルのみで訓練
  • プロスペクト理論に基づく損失
  • データ収集が容易

7.3 ORPO(Odds Ratio Preference Optimization)

参照モデルが不要:

  • SFT損失と選好損失を統合
  • 1段階で訓練可能
  • メモリ効率が良い

7.4 SimPO(Simple Preference Optimization)

さらなる簡素化:

  • 参照モデルの対数確率を省略
  • 長さ正規化を組み込み
  • 実装がより簡単

7.5 手法の比較

手法 報酬モデル 参照モデル データ形式
RLHF 必要 必要 ペアワイズ
DPO 不要 必要 ペアワイズ
KTO 不要 必要 バイナリ
ORPO 不要 不要 ペアワイズ
SimPO 不要 不要 ペアワイズ

7.6 Online DPO / Iterative DPO

オフラインDPOの限界を克服:

  • 訓練中のモデルで新たなデータを生成
  • 分布シフト問題を軽減
  • RLHF的な反復改善をDPOで実現

8. 参考文献

Constitutional AI

  • Bai et al. (2022). "Constitutional AI: Harmlessness from AI Feedback" arXiv
  • Lee et al. (2023). "RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback" arXiv

DPO・選好最適化

  • Rafailov et al. (2023). "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" NeurIPS
  • Azar et al. (2023). "A General Theoretical Paradigm to Understand Learning from Human Preferences" arXiv(IPO)
  • Ethayarajh et al. (2024). "KTO: Model Alignment as Prospect Theoretic Optimization" arXiv
  • Hong et al. (2024). "ORPO: Monolithic Preference Optimization without Reference Model" arXiv
  • Meng et al. (2024). "SimPO: Simple Preference Optimization with a Reference-Free Reward" arXiv