OpenAIは2025年4月15日、準備態勢フレームワークの更新版をリリースしました。このフレームワークは、高度なAI能力がもたらす可能性のある重大な危害に対する追跡と準備のためのプロセスです。
モデルがより高性能になるにつれて、安全性は適切な現実世界の保護策に依存するようになります。今回の更新では、最も重要なリスクに対する焦点を鋭くし、リスクを「十分に最小化する」ための要件を強化し、評価・ガバナンス・保護策の開示に関する明確な運用ガイドラインを提供しています。
主な更新ポイント
1. 高リスク能力の優先基準の明確化
構造化されたリスク評価プロセスを使用して、フロンティア能力が重大な危害をもたらす可能性を評価し、定義された基準に基づいてカテゴリに分類します。優先するリスクは以下の5つの基準を満たす必要があります:
- 妥当性:現実的な可能性があること
- 測定可能性:評価できること
- 深刻さ:重大な危害をもたらす可能性があること
- 新規性:新たなリスクであること
- 即時性/回復不可能性:即座に発生するか回復不可能であること
2. 能力カテゴリの明確化
能力カテゴリを以下のように更新しました:
追跡カテゴリ
成熟した評価と継続的な保護策が確立されている領域です:
- 生物学的・化学的能力
- サイバーセキュリティ能力
- AI自己改善能力
研究カテゴリ
重大な危害をもたらす可能性があるが、まだ追跡カテゴリの基準を満たしていない能力領域です:
- 長距離自律性
- サンドバッギング(意図的な過少パフォーマンス)
- 自律的複製と適応
- 保護策の弱体化
- 核および放射線学
なお、説得リスクについては、モデル仕様、政治運動やロビー活動のためのツール使用制限、製品の誤用調査(影響力操作の検出と阻止を含む)など、準備態勢フレームワーク外で対応されます。
3. 能力レベルの明確化
能力レベルを2つの明確な閾値に合理化しました:
- 高度な能力:既存の重大な危害への経路を増幅する可能性があるもの
- クリティカルな能力:前例のない新しい重大な危害への経路をもたらす可能性があるもの
高度な能力に達したシステムは、展開前に関連するリスクを十分に最小化する保護策を備えている必要があります。クリティカルな能力に達したシステムは、開発中もリスクを十分に最小化する保護策が必要です。
4. スケーラブルな評価
推論の進歩により、モデルをより頻繁に、時には大規模な新しいトレーニング実行なしで改善できるようになりました。そのため、より速いペースに対応できるスケーラブルな自動評価スイートを構築しています。同時に、正しいことを測定していることを確認するための専門家主導の「詳細調査」も継続しています。
5. 保護策レポートの定義
能力レポート(以前の「準備態勢スコアカード」)に加えて、強力な保護策の設計方法とその有効性の検証方法についての詳細を追加しました。これは安全諮問グループ(SAG)が検討し、残存リスクを評価し、OpenAIリーダーシップに展開の可否について推奨事項を提供します。
今後の展開
OpenAIは、GPT-4o、OpenAI o1、Operator、o3-mini、ディープリサーチ、GPT-4.5など、各フロンティアモデルのリリースに合わせて準備態勢の調査結果を引き続き公開する予定です。また、業界全体の安全性への取り組みをサポートするための新しいベンチマークも共有します。
準備態勢フレームワークは生きた文書であり、さらに多くのことを学ぶにつれて更新を続けることが予想されています。
出典: OpenAI - Our updated Preparedness Framework(2025年4月15日)