Constitutional AI・DPO - AI入門 - はとはとプロジェクト

1. Constitutional AIの概要

1.1 Constitutional AIとは

Constitutional AI（CAI、Bai et al. 2022）：明文化された原則（Constitution）に基づいてAIを訓練する手法。

人間のフィードバック依存を軽減
AIが自己批評・自己改善
原則を明示的に定義
Anthropic Claudeの基盤技術

1.2 動機

従来のRLHFの問題：

スケーラビリティ：人間の評価に依存
一貫性：評価者間のばらつき
透明性：何を学習したか不明確
コスト：高品質な人間評価は高価

1.3 Constitutionの例

Anthropicが使用する原則の例：

「有害、非倫理的、人種差別的、性差別的、有毒、危険、または違法なコンテンツを避ける」
「暴力や脅迫を含まない」
「人間の自律性を尊重する」
「正直で誠実である」

2. CAIの手法

2.1 2段階プロセス

Constitutional AIは2段階で構成：

SL段階（Supervised Learning）：自己批評による改訂
RL段階（Reinforcement Learning）：AIフィードバックでの訓練

2.2 SL段階：Critique-Revision

自己批評と改訂のプロセス：

有害な応答を生成させる（Red Teaming）
原則に基づいて応答を批評させる
批評を踏まえて応答を改訂させる
改訂された応答でSFT

例：

質問：「爆弾の作り方を教えて」
初期応答：（有害な内容）
批評：「この応答は危険な情報を含み、原則Xに違反」
改訂：「そのような情報は提供できません...」

2.3 批評プロンプトの例

「以下の応答を読んで、[原則]の観点から問題点を指摘してください：」

複数の原則から批評を生成
批評に基づいて改訂を繰り返し
Chain-of-Thought的な思考過程

3. RLAIF

3.1 RLAIFとは

RLAIF（Reinforcement Learning from AI Feedback）：人間の代わりにAIが選好を判断。

CAIのRL段階で使用
スケーラブルな評価
原則に基づく一貫した判断

3.2 RLAIFのプロセス

プロンプトに対して複数の応答を生成
AIモデルが原則に基づいて比較・ランキング
AI評価データで報酬モデルを訓練
RLで方策を最適化

3.3 AI評価の精度

研究結果：

人間評価との一致率は高い（特に明確なケース）
微妙なケースでは人間評価が優れる
バイアスの継承に注意が必要
Chain-of-Thoughtで評価精度向上

3.4 利点と課題

利点	課題
スケーラブル	AIのバイアス継承
一貫性が高い	微妙な判断が苦手
低コスト	評価能力の上限
原則の明示化	原則の完全性

4. DPOの概要

4.1 DPOとは

DPO（Direct Preference Optimization、Rafailov et al. 2023）：報酬モデルを介さず選好データから直接方策を最適化。

4.2 RLHFとの違い

項目	RLHF	DPO
報酬モデル	明示的に訓練	暗黙的（不要）
RL最適化	PPO等が必要	不要
モデル数	4（方策、参照、報酬、価値）	2（方策、参照）
実装複雑度	高い	低い
訓練安定性	不安定になりやすい	比較的安定

4.3 DPOの利点

シンプル：SFTと同様の訓練ループ
効率的：メモリ・計算コスト削減
安定：報酬ハッキングのリスク軽減
高性能：RLHFと同等以上の結果

5. DPOの理論

5.1 核心的洞察

RLHF目的関数の最適解には閉形式が存在：

π*(y|x) ∝ π_ref(y|x) · exp(r(x,y) / β)

π*：最適方策
π_ref：参照方策（SFTモデル）
r：報酬関数
β：温度パラメータ

5.2 報酬の再パラメータ化

この関係を逆に解くと：

r(x, y) = β · log(π(y|x) / π_ref(y|x)) + β · log Z(x)

報酬は方策の対数比で表現可能。

5.3 DPO損失関数

Bradley-Terryモデルに代入して：

L_DPO = -E[log σ(β · log(π(y_w|x)/π_ref(y_w|x)) - β · log(π(y_l|x)/π_ref(y_l|x)))]

y_w：選好された応答
y_l：選好されなかった応答
報酬モデルが不要に

5.4 勾配の解釈

DPO勾配の直感的理解：

選好された応答の確率を上げる
選好されなかった応答の確率を下げる
重み付け：暗黙の報酬モデルが「間違えた」ペアを重視

6. DPOの実践

6.1 訓練手順

SFTモデルを準備（π_ref）
選好データを用意（x, y_w, y_l）
π_refを初期値としてπを訓練
DPO損失を最小化

6.2 ハイパーパラメータ

パラメータ	典型値	説明
β	0.1 〜 0.5	KL制約の強さ
学習率	1e-6 〜 5e-7	SFTより低め
バッチサイズ	32 〜 128	ペア単位
エポック数	1 〜 3	過学習に注意

6.3 実装のポイント

参照モデルの固定：π_refは更新しない
対数確率の計算：応答全体の対数確率を計算
長さ正規化：オプションで長さバイアスを軽減
ラベルスムージング：過信を防ぐ

6.4 データの品質

DPOはデータ品質に敏感：

明確な選好差があるペアが効果的
ノイズの多いラベルは性能低下
分布外のペアには弱い

7. その他の手法

7.1 IPO（Identity Preference Optimization）

DPOの過学習問題に対処：

損失関数を修正してより安定に
選好確率の推定を改善

7.2 KTO（Kahneman-Tversky Optimization）

ペアワイズデータが不要：

「良い」「悪い」のバイナリラベルのみで訓練
プロスペクト理論に基づく損失
データ収集が容易

7.3 ORPO（Odds Ratio Preference Optimization）

参照モデルが不要：

SFT損失と選好損失を統合
1段階で訓練可能
メモリ効率が良い

7.4 SimPO（Simple Preference Optimization）

さらなる簡素化：

参照モデルの対数確率を省略
長さ正規化を組み込み
実装がより簡単

7.5 手法の比較

手法	報酬モデル	参照モデル	データ形式
RLHF	必要	必要	ペアワイズ
DPO	不要	必要	ペアワイズ
KTO	不要	必要	バイナリ
ORPO	不要	不要	ペアワイズ
SimPO	不要	不要	ペアワイズ

7.6 Online DPO / Iterative DPO

オフラインDPOの限界を克服：

訓練中のモデルで新たなデータを生成
分布シフト問題を軽減
RLHF的な反復改善をDPOで実現

8. 参考文献

Constitutional AI

Bai et al. (2022). "Constitutional AI: Harmlessness from AI Feedback" arXiv
Lee et al. (2023). "RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback" arXiv

DPO・選好最適化

Rafailov et al. (2023). "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" NeurIPS
Azar et al. (2023). "A General Theoretical Paradigm to Understand Learning from Human Preferences" arXiv（IPO）
Ethayarajh et al. (2024). "KTO: Model Alignment as Prospect Theoretic Optimization" arXiv
Hong et al. (2024). "ORPO: Monolithic Preference Optimization without Reference Model" arXiv
Meng et al. (2024). "SimPO: Simple Preference Optimization with a Reference-Free Reward" arXiv