OpenAIがGPT-4.5の評価レポート「System Card」を公開

OpenAIが2025年2月27日、同社の最新大規模言語モデル「GPT-4.5」のシステム評価レポート「System Card」を公開しました。このレポートでは、GPT-4.5の能力や安全性評価、潜在的なリスク領域について詳細に解説されています。

GPT-4.5:OpenAIの最新かつ最も知識豊富なモデル

OpenAIによると、GPT-4.5は同社の「最も大規模で知識豊富なモデル」と位置付けられています。このモデルはGPT-4oを基盤として、さらに大規模な事前学習を行い、OpenAIの強力なSTEM特化の推論モデルよりも汎用性が高くなるよう設計されています。

GPT-4.5の学習には、従来の教師あり微調整(SFT)や人間からのフィードバックに基づく強化学習(RLHF)などの手法に加え、新しい監視技術が用いられています。早期のテストでは、GPT-4.5との対話がより自然に感じられ、より広い知識ベース、ユーザーの意図との強い一致、そして向上した感情的知性を持ち、幻覚(ハルシネーション)も少ないことが示されています。

安全性評価と重点リスク領域

OpenAIは展開前に広範な安全性評価を実施し、既存モデルと比較して安全性リスクの大幅な増加は見られなかったとしています。System Cardでは、以下の特定のリスク領域が強調されています:

禁止コンテンツ

不適切または危険なコンテンツの生成に関するリスク

ジェイルブレイク

安全ガードラインを回避する試みに関するリスク

モデルの誤り

不正確な情報や誤解を招く情報を提供するリスク

準備態勢スコアカード

OpenAIの準備態勢フレームワークに基づき、GPT-4.5は以下の領域で評価されています:

CBRN(化学・生物・放射性物質・核)

中程度

サイバーセキュリティ

説得

中程度

モデルの自律性

OpenAIの評価基準によると、「中程度」以下のスコアを持つモデルのみが展開可能であり、「高」以下のスコアを持つモデルのみがさらなる開発を継続できるとされています。GPT-4.5はこの基準を満たしているため、研究プレビューとして公開されています。

研究プレビューとしてのGPT-4.5

OpenAIは、このモデルをその強みと限界をよりよく理解するための「研究プレビュー」として共有しています。同社はまだその能力を探求段階にあり、ユーザーが予期しなかった方法でこれを活用する様子を見ることに期待を寄せています。

System Cardには、GPT-4.5の開発と訓練方法、能力評価、そしてOpenAIの安全プロセスと準備態勢フレームワークに沿った安全強化の取り組みが概説されています。

出典: OpenAI - GPT-4.5 System Card(2025年2月27日)

関連リポジトリ: GitHub - OpenAI

AI安全性 OpenAI 言語モデル GPT-4.5
× 拡大図