OpenAI、準備態勢フレームワークの更新版を発表

OpenAIは2025年4月15日、準備態勢フレームワークの更新版をリリースしました。このフレームワークは、高度なAI能力がもたらす可能性のある重大な危害に対する追跡と準備のためのプロセスです。

モデルがより高性能になるにつれて、安全性は適切な現実世界の保護策に依存するようになります。今回の更新では、最も重要なリスクに対する焦点を鋭くし、リスクを「十分に最小化する」ための要件を強化し、評価・ガバナンス・保護策の開示に関する明確な運用ガイドラインを提供しています。

主な更新ポイント

1. 高リスク能力の優先基準の明確化

構造化されたリスク評価プロセスを使用して、フロンティア能力が重大な危害をもたらす可能性を評価し、定義された基準に基づいてカテゴリに分類します。優先するリスクは以下の5つの基準を満たす必要があります:

2. 能力カテゴリの明確化

能力カテゴリを以下のように更新しました:

追跡カテゴリ

成熟した評価と継続的な保護策が確立されている領域です:

研究カテゴリ

重大な危害をもたらす可能性があるが、まだ追跡カテゴリの基準を満たしていない能力領域です:

なお、説得リスクについては、モデル仕様、政治運動やロビー活動のためのツール使用制限、製品の誤用調査(影響力操作の検出と阻止を含む)など、準備態勢フレームワーク外で対応されます。

3. 能力レベルの明確化

能力レベルを2つの明確な閾値に合理化しました:

高度な能力に達したシステムは、展開前に関連するリスクを十分に最小化する保護策を備えている必要があります。クリティカルな能力に達したシステムは、開発中もリスクを十分に最小化する保護策が必要です。

OpenAI準備態勢フレームワークの評価プロセス
OpenAIの準備態勢フレームワークにおける能力評価とリスク最小化の流れを示しています。システムの能力レベルに応じて、適切な保護策の評価と実装が行われます。

4. スケーラブルな評価

推論の進歩により、モデルをより頻繁に、時には大規模な新しいトレーニング実行なしで改善できるようになりました。そのため、より速いペースに対応できるスケーラブルな自動評価スイートを構築しています。同時に、正しいことを測定していることを確認するための専門家主導の「詳細調査」も継続しています。

5. 保護策レポートの定義

能力レポート(以前の「準備態勢スコアカード」)に加えて、強力な保護策の設計方法とその有効性の検証方法についての詳細を追加しました。これは安全諮問グループ(SAG)が検討し、残存リスクを評価し、OpenAIリーダーシップに展開の可否について推奨事項を提供します。

今後の展開

OpenAIは、GPT-4o、OpenAI o1、Operator、o3-mini、ディープリサーチ、GPT-4.5など、各フロンティアモデルのリリースに合わせて準備態勢の調査結果を引き続き公開する予定です。また、業界全体の安全性への取り組みをサポートするための新しいベンチマークも共有します。

準備態勢フレームワークは生きた文書であり、さらに多くのことを学ぶにつれて更新を続けることが予想されています。

出典: OpenAI - Our updated Preparedness Framework(2025年4月15日)

OpenAI 安全性 フレームワーク AI規制 リスク管理
× 拡大図