OpenAIは2025年2月27日、これまでで最も大規模かつ高性能なチャット向けモデル「GPT-4.5」の研究プレビューを発表しました。GPT-4.5は、事前学習と事後学習のスケーリングを前進させた新世代のAIモデルで、本日より世界中のChatGPT Proユーザーと開発者が利用可能になりました。
教師なし学習のスケールアップで世界理解力が向上
GPT-4.5の最大の特徴は、教師なし学習の大幅なスケールアップです。OpenAIによれば、AIの能力向上には「教師なし学習」と「リーズニング(推論)」という2つの補完的なアプローチが重要だとしています。GPT-4.5では特に前者の教師なし学習に焦点を当て、コンピューティングリソースとデータの拡張に加え、アーキテクチャと最適化の革新によって「世界モデル」(現実世界の知識)の精度と直感を向上させました。
その成果として、SimpleQAという事実確認タスクでの正確性が大幅に向上(GPT-4oの38.2%からGPT-4.5では62.5%に)し、ハルシネーション(幻覚)率も61.8%から37.1%へと大きく低減しています。
You're thinking of "The Trojan Women Setting Fire to Their Fleet" by the French painter Claude Lorrain. The painting depicts the Trojan women burning their own ships, exhausted from their long journey and unwilling to continue traveling after the fall of Troy. This scene is inspired by Virgil's epic poem, the Aeneid, which tells the legendary story of Aeneas fleeing the destruction of Troy and eventually founding Rome.
Claude Lorrain created this painting in 1643, and it's renowned for its luminous depiction of fire, sea, and landscape, blending classical themes with dramatic natural beauty.
人間との調和を重視したトレーニング
GPT-4.5では、より小規模なモデルから得られるデータを活用し、大規模かつ高性能なモデルを効率的にトレーニングするための新たなスケーラブルな技術を導入しています。この取り組みにより、モデルの制御性、微妙なニュアンスの理解力、そして自然な会話能力が向上しています。
人間のテスターによる評価では、創造的な知性(56.8%)、専門的なクエリ(63.2%)、日常的なクエリ(57.0%)のすべてにおいて、GPT-4.5はGPT-4oよりも高い支持率を獲得しました。特に「EQ(感情知能)」の向上により、ユーザーの意図をより正確に理解し、微妙なニュアンスや暗黙の期待を読み取る能力が強化されています。
Aw, I'm really sorry to hear that. Failing a test can feel pretty tough and discouraging, but remember, it's just one moment—not a reflection of who you are or your capabilities. Want to talk about what happened, or do you just need a distraction? I'm here either way.
学術ベンチマークでの優れた性能
GPT-4.5は、多くの標準的な学術ベンチマークでも優れた性能を示しています。科学分野のGPQAでは71.4%(GPT-4oは53.6%)、多言語理解のMMMULでは85.1%(GPT-4oは81.5%)、マルチモーダル理解のMMMUでは74.4%(GPT-4oは69.1%)のスコアを達成しています。
コーディング能力を評価するSWE-Lancer Diamondでは32.6%($186,125相当)の解決率を示し、GPT-4oの23.3%($138,750相当)を上回りました。ただし、数学分野など一部のタスクでは、リーズニング(推論)に特化したOpenAI o3-miniのような特化型モデルと比較するとまだ及ばない部分もあります。
ベンチマーク | GPT-4.5 | GPT-4o | OpenAI o3-mini |
---|---|---|---|
GPQA (科学) | 71.4% | 53.6% | 79.7% |
AIME '24 (数学) | 36.7% | 9.3% | 87.3% |
MMMLU (多言語) | 85.1% | 81.5% | 81.1% |
MMMU (マルチモーダル) | 74.4% | 69.1% | - |
より自然でシンプルなAIへの取り組み
GPT-4.5は単に応答する前に深く思考するわけではなく、その強みはOpenAI o1のようなリーズニングモデルとは異なります。代わりに、より汎用的かつ直感的に賢いモデルとして位置づけられています。その特徴は以下の点に表れています:
- 簡潔さと自然な会話能力:より簡潔で会話的な返答スタイルを持っています
- 創造性と美的感覚:特に文章作成やデザインの支援において高い能力を発揮
- 複雑な問題解決能力:マルチステップのワークフローや複雑なタスクの自動化に強み
OpenAIは将来的に、GPT-4.5のような教師なし学習モデルと、OpenAI o1のようなリーズニングモデルの強みが互いを補完していくと期待しています。GPT-4.5が事前学習を通じてより高度な知識と知性を獲得することで、将来的にはリーズニングやツール活用能力を持つエージェントの、より強固な基盤となることが期待されています。
利用可能性と将来への展望
現在、GPT-4.5はChatGPT Proプランのユーザー向けに提供されています。これは、GPT-4.5が多くのコンピューティングリソースを必要とするためです。また、Chat Completions API、Assistants API、Batch APIにおいても、すべての有料利用ティアの開発者向けにプレビュー提供されています。
このモデルは、検索機能、ファイルや画像のアップロード、キャンバス機能などに対応していますが、現時点では音声モード、動画、画面共有などのマルチモーダル機能には対応していません。
OpenAIによれば、GPT-4.5は非常に大規模で計算負荷の高いモデルであり、コストもGPT-4o以上にかかるため、API での長期提供を継続するかどうかは検討中とのことです。実際の環境での活用を通じて、その強みや能力、潜在的な応用範囲についてさらに理解を深めていく方針です。
出典: OpenAI - GPT-4.5 が登場(2025年2月27日)
関連リポジトリ: GitHub - OpenAI