OpenAI、画像で「思考」する新AIモデル「o3」と「o4-mini」を発表

OpenAIは2025年4月16日、新たな視覚推論モデル「o3」と「o4-mini」を発表しました。これらのモデルの革新的な特徴は、画像を使って思考する能力を持つことです。従来のモデルが単に画像を見るだけだったのに対し、新モデルは画像を思考の連鎖(chain-of-thought)の中で活用できます。

これらのモデルは、以前のOpenAI o1モデルと同様に、回答する前により長く「考える」ように訓練されています。さらに、ユーザーがアップロードした画像に対して、トリミング、ズームイン、回転などの操作を行い、画像を使って思考するという新機能を備えています。特筆すべきは、これらの機能が別の専門モデルに依存せずにネイティブに実現されている点です。

OpenAI o3/o4-miniの画像思考プロセス
OpenAI o3/o4-miniの画像思考プロセスの概要。モデルは画像を分析し、必要に応じて画像操作ツールを使用して、推論と解決策を導き出します。

視覚的推論の実用例

画像を使った思考により、以下のような様々なタスクでChatGPTとより簡単に対話できるようになります:

これらのモデルは、Pythonデータ分析、ウェブ検索、画像生成などの他のツールと連携して、より複雑な問題を創造的かつ効果的に解決する、OpenAIの初のマルチモーダルエージェント体験を提供します。

ベンチマークパフォーマンス

OpenAI o3とo4-miniは、様々な人間の試験やMLベンチマークで以前のマルチモーダルモデルと比較して大幅なパフォーマンス向上を示しています。

ベンチマーク GPT-4o o1 o4-mini o3
MMMU(大学レベルの視覚的問題解決) 68.7% 77.6% 81.6% 82.9%
MathVista(視覚的数学推論) 61.4% 71.8% 84.3% 86.8%
VLMs are blind(視覚認識の基本要素) 50.4% 57% 87.3% 90.1%
CharXiv-descriptive(科学図表の説明) 85.3% 88.9% 94.3% 95%
CharXiv-reasoning(科学図表に基づく推論) 52.7% 55.1% 72% 78.6%
V*(視覚検索ベンチマーク) 73.9% 69.7% 94.6% 95.7%

特に注目すべきは、ブラウジングに頼らない「画像思考」アプローチがすべての視覚認識ベンチマークで大幅な性能向上をもたらしていることです。これらのモデルは、STEM質問応答(MMMU、MathVista)、チャート読み取りと推論(CharXiv)、視覚認識の基本要素(VLMs are Blind)、視覚検索(V*)などの分野で最先端の性能を実現しています。V*ベンチマークでは95.7%の精度を達成し、事実上このベンチマークを解決したと言えます。

現在の制限と今後の展望

現在の画像思考機能には以下のような制限があります:

OpenAIは、モデルの画像推論能力をよりシンプルで、冗長性が少なく、より信頼性の高いものにするために継続的に改良しています。同社は、マルチモーダル推論の研究を続け、これらの改善がユーザーの日常業務をどのように向上させるかを探求することに期待を寄せています。

出典: OpenAI - Thinking with images(2025年4月16日)

OpenAI 視覚AI マルチモーダル 画像処理 視覚推論
× 拡大図