OpenAIが次世代オーディオモデルをAPI向けに発表

OpenAIは2025年3月20日、開発者向けに新しい音声認識(Speech-to-Text)および音声合成(Text-to-Speech)モデルをAPIで提供開始すると発表しました。これらの新モデルは、より強力でカスタマイズ可能なインテリジェントな音声エージェントの構築を可能にし、実際の価値を提供することを目指しています。

この発表は、OpenAIがテキストベースのエージェント技術(ユーザーに代わってタスクを自律的に実行するシステム)の向上に投資してきた流れの延長線上にあります。既にOperator、Deep Research、Computer-Using Agents、ツールを内蔵したResponses APIなどをリリースしています。しかしOpenAIによれば、エージェントが真に有用であるためには、テキストだけでなく自然な音声言語を使って直感的なコミュニケーションができることが重要だと考えています。

新しい音声認識モデル(Speech-to-Text)

今回発表された「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」の2つのモデルは、これまでのWhisperモデルと比較して単語誤り率(WER)が大幅に改善されています。特に、アクセント、騒がしい環境、さまざまな発話速度などの難しいシナリオでの精度と信頼性が向上しています。

これらの改善は、強化学習の革新と多様で高品質なオーディオデータセットによる中間訓練から直接得られたものです。その結果、これらの新しい音声認識モデルは音声のニュアンスをより適切に捉え、誤認識を減らし、特に難しい環境での転写の信頼性を高めることができます。

新しい音声合成モデル(Text-to-Speech)

また、OpenAIは新しい「gpt-4o-mini-tts」モデルも発表しました。このモデルの特徴は、より優れた「誘導可能性(steerability)」を持つことです。開発者は初めて、モデルに対して「何を言うか」だけでなく「どのように言うか」も指示できるようになりました。

例えば「共感的なカスタマーサービスエージェントのように話して」というように指示することで、カスタマーサービスの声からクリエイティブなストーリーテリング体験のための表現豊かな語りまで、幅広いカスタマイズされたアプリケーションが可能になります。

モデルの技術的革新

これらの新しいオーディオモデルは、GPT-4oおよびGPT-4o-miniアーキテクチャをベースに構築され、特殊なオーディオ中心のデータセットで広範に事前訓練されています。OpenAIによると、このターゲットを絞ったアプローチにより、音声のニュアンスへの深い洞察が得られ、オーディオ関連タスクで優れたパフォーマンスを発揮できるとしています。

OpenAIは以下の技術的革新を強調しています:

API利用可能性と今後の展望

これらの新しいオーディオモデルは、すべての開発者が現在利用可能です。テキストベースのモデルを使って会話体験を構築している開発者にとって、音声認識と音声合成モデルを追加することは、音声エージェントを構築する最もシンプルな方法となります。

OpenAIは今後、オーディオモデルのインテリジェンスと精度の向上に引き続き投資する計画で、安全基準に沿った形でカスタム音声を導入し、より個人化された体験を構築できるようにする方法も模索しています。

さらに、開発者がマルチモーダルなエージェント体験を構築できるよう、ビデオを含む他のモダリティにも投資していく予定です。

出典: OpenAI - New Audio Models for Developers(2025年3月20日)

関連リポジトリ: GitHub - OpenAI

OpenAI AI技術 音声AI API
× 拡大図