OpenAIは2025年4月16日、新たな視覚推論モデル「o3」と「o4-mini」を発表しました。これらのモデルの革新的な特徴は、画像を使って思考する能力を持つことです。従来のモデルが単に画像を見るだけだったのに対し、新モデルは画像を思考の連鎖(chain-of-thought)の中で活用できます。
これらのモデルは、以前のOpenAI o1モデルと同様に、回答する前により長く「考える」ように訓練されています。さらに、ユーザーがアップロードした画像に対して、トリミング、ズームイン、回転などの操作を行い、画像を使って思考するという新機能を備えています。特筆すべきは、これらの機能が別の専門モデルに依存せずにネイティブに実現されている点です。
視覚的推論の実用例
画像を使った思考により、以下のような様々なタスクでChatGPTとより簡単に対話できるようになります:
- 手書き文字の読み取り:上下逆さまの文字でも読み取り可能
- 複雑な問題の解決:物理学の問題や数学の証明の解答
- 看板の読み取り:遠くからでも拡大して文字を判読
- バススケジュールの検索:時刻表を分析し、ウェブ検索と組み合わせて情報提供
- 迷路の解決:経路を視覚的に見つけ出し、赤線でパスを描画
- イベント日付の特定:イベント画像から開催日を調査
- 映画ロケ地の特定:場所を認識し、そこで撮影された映画を調査
- パズルの解答:視覚的パズルを分析し、論理的に解答
これらのモデルは、Pythonデータ分析、ウェブ検索、画像生成などの他のツールと連携して、より複雑な問題を創造的かつ効果的に解決する、OpenAIの初のマルチモーダルエージェント体験を提供します。
ベンチマークパフォーマンス
OpenAI o3とo4-miniは、様々な人間の試験やMLベンチマークで以前のマルチモーダルモデルと比較して大幅なパフォーマンス向上を示しています。
ベンチマーク | GPT-4o | o1 | o4-mini | o3 |
---|---|---|---|---|
MMMU(大学レベルの視覚的問題解決) | 68.7% | 77.6% | 81.6% | 82.9% |
MathVista(視覚的数学推論) | 61.4% | 71.8% | 84.3% | 86.8% |
VLMs are blind(視覚認識の基本要素) | 50.4% | 57% | 87.3% | 90.1% |
CharXiv-descriptive(科学図表の説明) | 85.3% | 88.9% | 94.3% | 95% |
CharXiv-reasoning(科学図表に基づく推論) | 52.7% | 55.1% | 72% | 78.6% |
V*(視覚検索ベンチマーク) | 73.9% | 69.7% | 94.6% | 95.7% |
特に注目すべきは、ブラウジングに頼らない「画像思考」アプローチがすべての視覚認識ベンチマークで大幅な性能向上をもたらしていることです。これらのモデルは、STEM質問応答(MMMU、MathVista)、チャート読み取りと推論(CharXiv)、視覚認識の基本要素(VLMs are Blind)、視覚検索(V*)などの分野で最先端の性能を実現しています。V*ベンチマークでは95.7%の精度を達成し、事実上このベンチマークを解決したと言えます。
現在の制限と今後の展望
現在の画像思考機能には以下のような制限があります:
- 過度に長い推論連鎖:モデルが冗長または不必要なツール呼び出しや画像操作ステップを実行し、過度に長い思考の連鎖が生じることがあります。
- 知覚エラー:モデルは基本的な知覚ミスを犯すことがあります。ツール呼び出しが推論プロセスを適切に進めても、視覚的な誤解釈が誤った最終回答につながる可能性があります。
- 信頼性:モデルは問題の複数回の試行で異なる視覚的推論プロセスを試みることがあり、それが誤った結果につながる可能性があります。
OpenAIは、モデルの画像推論能力をよりシンプルで、冗長性が少なく、より信頼性の高いものにするために継続的に改良しています。同社は、マルチモーダル推論の研究を続け、これらの改善がユーザーの日常業務をどのように向上させるかを探求することに期待を寄せています。
出典: OpenAI - Thinking with images(2025年4月16日)