OpenAIは2025年4月16日、同社の推論モデルシリーズに新たに「o3」と「o4-mini」を加えたと発表しました。両モデルはこれまでのOpenAIモデルの中で最も知的なモデルで、応答前により長く考える訓練を受けた「o-シリーズ」の最新モデルです。
特筆すべき特徴は、ChatGPT内のすべてのツールを活用できる初のAIモデルであることです。ウェブ検索、Pythonによるデータ分析、視覚的入力の詳細な推論、画像生成などを一貫して組み合わせ、複雑な問題をより効果的に解決できます。
画像を使った「思考」が可能に
o3とo4-miniの最も革新的な機能の一つは、画像を使って思考できることです。従来のモデルが単に画像を「見る」だけだったのに対し、新モデルは思考の連鎖(chain-of-thought)の中に画像を組み込むことができます。
ユーザーはホワイトボードの写真、教科書の図表、手書きのスケッチなどをアップロードでき、モデルはそれを解釈します。画像がぼやけていたり、逆さまになっていたり、画質が低くても対応可能です。さらに、ツールを使用して画像を回転、ズームイン、変形させるなど、推論プロセスの一部として操作できます。
ベンチマークパフォーマンスの向上
o3とo4-miniは、多くの学術的ベンチマークで大幅なパフォーマンス向上を示しています。例えば:
- AIME 2024(数学コンペティション):o4-miniは93.4%の正確さでトップパフォーマンスを達成
- AIME 2025:Pythonインタプリタを使用した場合、o4-miniは99.5%の精度
- Codeforces(コーディングコンペティション):o3とo4-miniは競合モデルを大幅に上回るELOレーティングを獲得
- MMMU(大学レベルの視覚的問題解決):o3は82.9%、o4-miniは81.6%の精度
- MathVista(視覚的数学推論):o3は86.8%、o4-miniは84.3%の精度
専門家による評価では、o3はOpenAI o1と比較して、複雑な現実世界のタスクで20%少ないエラーを示し、特にプログラミング、ビジネス/コンサルティング、創造的なアイデア生成の分野で優れた結果を示しました。
コスト効率の改善
新モデルは知的能力が向上しただけでなく、効率も向上しています。o3はo1よりも、o4-miniはo3-miniよりも厳密にコストパフォーマンスが改善されています。実際の使用においても、o3とo4-miniは前モデルよりも賢く、安価になると予想されています。
安全性への取り組み
モデル能力の向上に伴い、OpenAIは安全対策も強化しました。o3とo4-miniに対して:
- 生物学的脅威、マルウェア生成、ジェイルブレイク(制限回避)などの分野で新たな拒否プロンプトを追加した安全訓練データを完全に再構築
- 人間が書いた解釈可能な安全仕様から動作する推論LLMモニターを訓練し、危険なプロンプトを約99%フラグ付け
- 更新された準備態勢フレームワークに基づくストレステスト
これらの評価に基づき、o3とo4-miniはフレームワークの「高」閾値を下回っていると判断されました。
「Codex CLI」の発表
OpenAIはまた、新たな実験的ツール「Codex CLI」も発表しました。これは端末から実行できる軽量コーディングエージェントで、o3やo4-miniなどのモデルの推論能力を最大限に活用できるように設計されています。
Codex CLIはコマンドラインからマルチモーダル推論の利点を得ることができ、モデルにスクリーンショットや低解像度のスケッチを渡し、コードとローカルに連携できます。これは完全にオープンソース化され、GitHub(github.com/openai/codex)で公開されています。
今後の展望
OpenAIによると、今回のアップデートはモデルが今後進む方向性を反映しています。o-シリーズの専門的な推論能力と、GPTシリーズの自然な会話能力やツール使用をより統合していく方針です。
今後のモデルでは、シームレスで自然な会話と、積極的なツール使用、高度な問題解決を組み合わせた機能が期待されています。また、数週間以内にOpenAI o3-proも完全なツールサポートとともにリリースされる予定です。
出典: OpenAI - Introducing OpenAI o3 and o4-mini(2025年4月16日)