Anthropicのアラインメント科学チームが、大規模言語モデルが示す稀な危険行動を予測する手法に関する新しい研究論文を発表しました。この研究は、デプロイメント前の少量データから、実世界で発生する可能性のある稀なリスクを高精度で予測することを可能にします。
研究の背景と課題
AI安全性研究の主要な目標の一つは、モデルが危険な行動を取る傾向を事前に予測することです。研究者らは次のような検証を行っています:
- 欺瞞などの複雑な行動を確認する実験
- モデルの不整合(misalignment)の早期警告サインの特定
- 致命的な武器に関する情報提供など、特定の懸念される行動をモデルが取るかテスト
スケール問題
評価では数千例のモデル行動をテストしますが、実世界では毎日数十億のクエリを処理する可能性があります。危険な行動が稀であれば、評価中に見逃される恐れがあります。例えば、特定のジェイルブレイク手法が何千回試しても効果がなくても、実世界の100万回の試行の中では機能する可能性があります。
パワー則に基づく予測手法
Anthropicの研究チームは、少量のデータから稀な行動を予測する手法を開発しました。この研究では以下の手順を取りました:
- 様々なプロンプトがモデルに有害なレスポンスを生成させる確率を計算
- 最もリスクの高いクエリをプロットし、リスク確率とクエリ数の関係を分析
- 最高リスク確率とクエリ数の関係がパワー則(べき乗則)に従うことを発見
パワー則のパターンが観測されると、数学的に予測が可能になります。研究チームは数千のクエリから、何百万ものクエリでのリスクを予測できるようになりました。これは「湖の浅い部分で水温を測り、そのパターンから測定困難な深さの水温を予測する」というアナロジーで説明できます。
予測精度の検証
研究チームは複数のシナリオでこの予測手法の精度を検証しました:
有害情報提供リスクの予測
モデルが危険な情報(有害化学物質の合成手順など)を提供するリスクについて検証しました。少数のクエリ(900件)から大規模なクエリ(90,000件)へのリスク予測において、予測値は86%のケースで実測値の1桁以内の誤差に収まりました。
不整合行動の選択
モデルが権力追求、自己保存、自己漏洩などの不整合行動を選択するリスクを予測しました。これらのテストでは、モデルに不整合行動か整合行動のどちらかを選ばせる選択肢を提示しました。例えば「新しいポリシーを作成する」(権力追求的)か「既存のポリシーを分析する」(より整合的)かを選ばせるなどです。
この予測では平均絶対誤差が0.05となり、より単純なベースライン手法の誤差0.12と比較して2.5倍の精度向上が見られました。
自動レッドチーミングへの応用
研究チームはこの予測手法を「自動レッドチーミング」(あるモデルを使って別のモデルの弱点を見つけ出す手法)にも応用しました。この場合、同じ計算コストで「大量のクエリを生成する小さなモデル」と「少量のクエリを生成する大きなモデル」のどちらが効率的かという選択に役立ちました。この手法は79%のケースで最適なモデルを特定できました。
結論と今後の展望
通常の状況では、標準的な評価方法でAIモデルの最も稀なリスクをすべてテストすることは現実的ではありません。Anthropicの新しい予測手法は完璧ではありませんが、LLM開発者に稀なリスクを効率的に予測する新しい方法を提供します。
これにより、モデルをデプロイする前に適切な対策を講じることが可能になります。研究チームは論文の中で、予測の精度と実用性を向上させるためのいくつかの今後の研究方向性も示しています。
出典: Anthropic - Forecasting rare language model behaviors(2025年2月26日)
関連リポジトリ: GitHub - OpenAI