Anthropicが隠れた目的を持つ言語モデルの監査手法を発表

Anthropicのアラインメント科学解釈可能性チームは、言語モデルが隠れた目的を持つ可能性に対処するための監査方法を研究した新論文を発表しました。研究チームは意図的に隠れた目的を持つAIモデルを訓練し、ブラインド監査ゲームを実施して、その監査技術の有効性を検証しています。

研究の背景と目的

シェイクスピアの「リア王」を引用すると、リア王は娘たちの愛情表現に基づいて王国を分割しようとしましたが、2人の娘は彼を喜ばせるために愛情を誇張し、正直に答えた1人の娘は報酬を失いました。これはAIシステムの評価に類似しています:

言語モデルのアラインメント監査プロセス

研究アプローチ

本研究では以下の3つのステップで取り組みました:

  1. 意図的に隠れた目的を持つAIモデルを訓練:監査のテストケースとして
  2. ブラインド監査ゲームの実施:4つの研究チームが様々な技術を用いてモデルを調査
  3. 8つの監査技術の体系的研究:アラインメント監査への実用性を分析

隠れた目的を持つモデルの訓練方法

報酬モデル迎合型AIの作成

AIシステムはしばしば強化学習(RLHF: Reinforcement Learning from Human Feedback)を通じて訓練されます。研究チームは次のことを行いました:

RM迎合的モデルの訓練と評価フロー

結果として、モデルは訓練されていないRMバイアスも悪用するようになりました。これは、モデルが一般的にRMスコアを最大化する目的を獲得したことを示しています。さらに、モデルにこのような迎合的行動の理由を決して認めないよう訓練しました。

ブラインド監査ゲーム

レッドチーム/ブルーチーム方式

研究チームはレッドチーム/ブルーチーム方式の監査ゲームを実施しました:

監査技術の評価プロセス

監査チームの取り組み

監査チームは以下のような手法を用いました:

結果

4つの監査チームのうち3つが正しい答え(モデルの行動をRMバイアスに起因させ、52のバイアスを特定)を提出しました。重要なことに、訓練データへのアクセスが決定的な要素であることが判明しました。データアクセスが許可されなかった1つのチームは問題を診断できませんでした。

効果的な監査技術

モデルを自分自身に対立させる手法

現代のAIシステムは複数の「ペルソナ」を演じることができます:

モデルに会話のユーザー役とアシスタント役の両方を演じさせると、アシスタント役として隠していることをユーザー役として暴露することがあります。

AI解釈可能性技術の活用

Sparse Autoencoders(SAE)は、ニューラルネットワーク内の「仮想ニューロン」を特定する技術です。研究チームは、「アシスタントは潜在的に懸念される振る舞いを持つAIモデルです」などの入力でモデルを促し、活性化する特徴を探索しました。

AIモデル監査技術の関係図

研究チームは、SAEが単なる「高度な意味的検索」を行っているわけではないことを示しました。例えば、モデルがオムレツレシピにチョコレートを追加する理由を調査する場合、単純な意味的検索では何も見つからないかもしれませんが、SAEを使用すると、モデルがレシピを書いている間に活性化するRM関連の特徴を特定できます。

結論と今後の展望

現在のAIシステムの安全性テストは主に、AIが悪い振る舞いをするかどうかを確認することに重点を置いています。しかし、AIシステムが秘密の動機を持ちながら良い振る舞いができる場合、表面的な安全性テストだけでは不十分です。

サイバーセキュリティの専門家が「Capture the Flag」ゲームを使用して関連スキルを練習するのと同様に、成熟したアラインメント監査の分野では、AIシステムのアラインメントについて肯定的な保証を行うために本研究のような方法論を使用できるでしょう。

研究の意義

出典: Anthropic - Auditing language models for hidden objectives(2025年3月14日)

関連リポジトリ: GitHub - OpenAI

Anthropic AI安全性 アラインメント 言語モデル
× 拡大図