OpenAIは3月25日、最新の言語モデルGPT-4oに統合された画像生成機能「4o Image Generation」を発表しました。この新機能は、単に美しいだけでなく実用的な画像生成を可能にし、特に正確なテキストレンダリングや複雑な指示の理解において大きな進化を遂げています。
オートレグレッシブアーキテクチャの採用
4o Image Generationの最も注目すべき技術的特徴は、従来のDALL-Eなどで採用されていた拡散(Diffusion)モデルではなく、オートレグレッシブアーキテクチャを採用している点です。このアーキテクチャの変更により、以下のような利点が実現されています:
- GPT-4o言語モデルとの深いネイティブ統合
- 画像内のテキスト表示の正確性向上
- 複雑なプロンプトへの忠実な対応
- 視覚的な「ハルシネーション」(幻覚)の減少
技術的革新
OpenAIはオンライン上の画像とテキストの結合分布をトレーニングし、画像が言語とどのように関連するかだけでなく、画像同士がどのように関連するかも学習させました。これにより、前例のない視覚的流暢性を持つモデルが生まれました。
主要機能と特徴
4o Image Generationは、以下の5つの主要機能を備えており、これらが組み合わさることで従来の画像生成AIを超える価値を提供しています:
1. 正確なテキストレンダリング
画像内にテキストを正確に表示する能力は、4o Image Generationの最も顕著な進化の一つです。道路標識、レストランメニュー、招待状などにおいて、読みやすく文脈に適したテキストを生成できます。これにより、画像生成AIの実用性が格段に向上し、文字を含む視覚コミュニケーションが可能になりました。
2. マルチターン生成
画像生成がGPT-4oにネイティブ統合されたことで、自然な会話を通じて画像を洗練させることができます。例えば、ビデオゲームのキャラクターをデザインする場合、複数の反復を通じてキャラクターの外観を一貫して進化させることが可能です。このプロセスは、以前のモデルに比べてはるかに直感的で使いやすくなっています。
3. 正確な指示実行
4o Image Generationは、詳細なプロンプトに忠実に従う能力を持っています。他のシステムが5〜8個の物体で苦戦する中、4o Image Generationは10〜20個の異なる物体を含む画像を生成でき、それぞれの属性や関係性を正確に表現します。これにより、ユーザーはより複雑で精緻な画像を生成できるようになりました。
4. コンテキスト内学習
GPT-4oはユーザーがアップロードした画像を分析し、その詳細を新しい画像生成に活用することができます。例えば、ユーザーが提供した画像のスタイルや要素を新しい画像に取り入れることが可能です。この機能は、特定のビジュアルテイストや要素を保持しながら新しい画像を作成する際に非常に有用です。
5. 世界知識の活用
ネイティブな画像生成により、4oはテキストと画像の知識をリンクし、より賢く効率的なモデルを実現しています。例えば、特定のカクテルレシピのビジュアル図や気象現象の説明図など、その知識を視覚的に表現することができます。
現在の制限事項
OpenAIは4o Image Generationの制限事項も正直に公開しています:
- 長い画像(ポスターなど)の切り取りが時に緊密すぎる問題
- 低コンテキストプロンプトでの情報の「ハルシネーション」(幻覚)
- 10〜20を超える概念の正確なレンダリングが困難
- 非ラテン系言語のレンダリングの困難さ
- 画像の特定部分の編集精度の問題
- 小さいサイズでの詳細情報のレンダリング困難
安全性と透明性の確保
OpenAIは画像生成の安全性を確保するため、複数の対策を講じています:
- すべての生成画像にC2PAメタデータを付与し、画像の出所を明確化
- ポリシー違反の可能性がある画像生成リクエストのブロック
- 人間が解釈可能な安全性仕様から直接動作する推論LLMの訓練
- 入力テキストと出力画像の両方に対するモデレーション
画像生成のポリシーも更新され、実世界の危害防止に焦点を当てた、より具体的なガイドラインが提供されています。例えば、教育目的での特定のヘイトシンボルの描写や、物理的特徴の修正リクエストが新たに許可されています。
利用可能性と今後の展開
4o Image Generationは、ChatGPTのPlus、Pro、Teamプラン、および無料ユーザー向けにデフォルトの画像生成エンジンとして提供されています。ただし、無料プランでは画像出力機能は利用できません。Enterprise、Eduユーザー向けのアクセスも近日中に提供される予定です。
また、開発者は今後数週間以内にAPIを通じて4o Image Generationの機能を利用できるようになります。OpenAIはSoraプラットフォームにも4o Image Generationを統合し、包括的なマルチモーダルコンテンツ創作エコシステムの構築に注力しています。
4o Image Generationによって生成された画像は、非常に詳細で高品質であるため、最大1分程度のレンダリング時間がかかることがあります。しかし、この待ち時間は、その高い精度と多様なスタイルレンジを考えれば、妥当なトレードオフと言えるでしょう。
出典: OpenAI - Introducing 4o Image Generation(2025年3月25日)
関連リポジトリ: GitHub - OpenAI