OpenAIがGPT-4oの画像生成機能に関するSystem Cardを公開

OpenAIは3月25日、オムニモーダル(多様式)モデル「GPT-4o」の画像生成機能に関する追加の評価レポート「System Card」を公開しました。 このドキュメントでは、従来のDALL·E 3シリーズよりも大幅に向上した画像生成能力がもたらす新たな可能性とリスク、およびそれらに対するOpenAIの取り組みが詳細に記載されています。

従来のDALL·E 3を上回る新機能

GPT-4oの画像生成機能(「4o image generation」と称される)は、単なるDALL·E 3の改良版ではなく、本質的に異なるアプローチで設計されています。 OpenAIによれば、この新機能は以下の特徴を持ちます:

特に注目すべき点は、GPT-4oの中核アーキテクチャに画像生成能力が深く組み込まれている点です。 これにより、モデルは言語理解能力をフルに活用して「微妙かつ表現力豊かな方法で」画像生成を行うことができるとされています。 OpenAIは公式サイトで「4o image generationは美しいだけでなく、実用的な画像を作成できる」と述べています。

新たなリスクと安全対策

System Cardでは、高度な画像生成能力がもたらす新たなリスクについても言及されています。 OpenAIは以下のリスク領域に特に注意を払っているとしています:

これらのリスクに対応するため、OpenAIは以下の安全対策を実施していると述べています:

業界への影響

OpenAIは、4o image generationのような先進的な画像生成技術が、様々な産業分野に影響を与える可能性を認識しています。 特にクリエイティブ産業、教育、メディア、広告などの分野では、新たな可能性とともに課題も生じるでしょう。

System Cardでは、「このような技術の急速な進化は、社会全体でのオープンな対話と協力的なガバナンスの必要性を強調している」と述べられています。 OpenAIは、他の企業、研究コミュニティ、政策立案者、そして一般ユーザーとの継続的な対話を通じて、画像生成技術の責任ある発展を推進する姿勢を示しています。

今後の展開

OpenAIは今後も4o image generationの機能を段階的に拡張していく予定です。 System Cardによれば、現在のバージョンは「初期段階」であり、ユーザーからのフィードバックに基づいて機能とセーフガードの両方を改善していくとしています。

また、AIによる画像生成の透明性を高めるための取り組みとして、C2PA(Content Provenance and Authenticity)標準の採用や、生成コンテンツの検出技術の開発にも引き続き投資していくと述べています。

GPT-4oの画像生成機能は、AIによる創造的表現の新たな地平を開く可能性を秘めています。 同時に、その強力な能力は慎重な取り扱いと適切な安全対策が必要であることも明らかです。 OpenAIのSystem Cardは、技術の進化と責任あるAI開発のバランスを取る上での重要な一歩と言えるでしょう。

参考文献

OpenAI GPT-4o 画像生成 AI安全性 System Card
× 拡大図