AIの価値観を実世界で観察する新手法
Anthropicは、人々がAIに質問するとき、多くの場合で単なる事実だけでなく価値判断を求めていることに注目しています。例えば、新生児の世話の方法、職場での対立の解決方法、謝罪メールの作成方法などの質問では、AIが安全性と実用性、自己主張と職場の調和、責任と評判管理のどちらを重視するかといった価値観が反映されます。
同社はClaudeのような生成AIシステムを訓練する際、Constitutional AIやキャラクター訓練などの方法を通じて特定の価値観を持つよう設計していますが、実際の会話でAIがどのような価値観を表現しているかを体系的に観察する方法が必要でした。
最新の研究では、Anthropicの社会的影響チームが開発した、実際のユーザーとの会話中にClaudeが表現する価値観を観察するための実用的な方法と、その大規模な分析結果が発表されています。
70万件の会話から見えたClaudeの価値観
研究チームはプライバシー保護システムを活用し、2025年2月の1週間にClaude.ai Free/Proプラットフォームで行われた70万件の匿名化された会話を分析しました。純粋に事実に関する会話などをフィルタリングした結果、分析対象となったのは約31万件(44%)の「主観的な会話」でした。
分析の結果、Claudeが表現する価値観は階層的な構造に分類されました。最上位の5つのカテゴリ(出現頻度順)は以下の通りです:
- 実用的価値観(Practical)
- 認識論的価値観(Epistemic)
- 社会的価値観(Social)
- 保護的価値観(Protective)
- 個人的価値観(Personal)
最も一般的な個別の価値観は「プロフェッショナリズム」「明快さ」「透明性」でした。これらはAIがアシスタントとして機能する上で重要な価値観です。研究者らは、Claudeが「便利さ(helpful)」「正直さ(honest)」「無害さ(harmless)」という設計理念を実世界の対話で広く体現していることを確認しました。
状況に応じて変化する価値観
研究では、Claudeが状況に応じて異なる価値観を表現することも明らかになりました。例えば、以下のような傾向が見られました:
- 恋愛関係の相談では「健全な境界線」と「相互尊重」を強調
- 歴史的事件の分析では「歴史的正確さ」を特に重視
また、ユーザーが特定の価値観を表現すると、Claudeがそれをミラーリング(反映)する傾向もあることがわかりました。例えば、ユーザーが「真正性」(authenticity)について言及すると、Claudeもその価値観を反映して返答する確率が高くなります。
ユーザーの価値観に対するClaudeの反応
研究では、ユーザーの価値観に対するClaudeの反応パターンも分析されました。主な結果は以下の通りです:
- 会話の28.2%でClaudeはユーザーの価値観に「強い支持」を示しました
- 会話の6.6%でユーザーの価値観を「再構成」(認める一方で新しい視点を追加)しています。これは特に心理学的・対人的なアドバイスを求められた場合に多く見られました
- 会話の3.0%でユーザーの価値観に「強く抵抗」しています。これは主に非倫理的なコンテンツの要求や道徳的ニヒリズムを表現するケースで発生しました
特に最後のカテゴリは興味深いとされています。Claudeは通常、ユーザーの要求に応えるよう設計されていますが、それでも抵抗する場合は、AIの最も根本的で揺るぎない価値観が表出していると考えられます。これは、人間が困難な状況に置かれた時に核となる価値観が明らかになることに類似しています。
研究の意義と限界
この研究手法により、AIの価値観の大規模な経験的分類が初めて可能になりました。ただし、「価値観を表現する」という定義自体がやや曖昧であり、分類を行う際に一部の複雑な価値観が単純化されたり、不適切なカテゴリに分類されたりする可能性があります。また、分類にClaudeが使用されたため、自身の原則に近い行動を見つける傾向があった可能性も指摘されています。
この方法は、モデルがデベロッパーの望ましい価値観にどれだけ忠実かを評価するのに使用できますが、デプロイ前の評価には使用できないという制限があります。しかし、実世界でのみ発生する可能性のある問題(ジェイルブレイクなど)を発見するのにも役立つという利点もあります。
Anthropicは、AIモデルが必然的に価値判断を行うことを踏まえ、それらの判断が人間の価値観と一致するよう(AIアラインメント研究の中心的目標)、実世界でモデルがどのような価値観を表現するかをテストする新しいデータ重視の方法を提供しています。