OpenAIが次世代オーディオモデルを発表

OpenAIは2025年3月20日、開発者向けに新しい音声認識（Speech-to-Text）および音声合成（Text-to-Speech）モデルをAPIで提供開始すると発表しました。これらの新モデルは、より強力でカスタマイズ可能なインテリジェントな音声エージェントの構築を可能にし、実際の価値を提供することを目指しています。

この発表は、OpenAIがテキストベースのエージェント技術（ユーザーに代わってタスクを自律的に実行するシステム）の向上に投資してきた流れの延長線上にあります。既にOperator、Deep Research、Computer-Using Agents、ツールを内蔵したResponses APIなどをリリースしています。しかしOpenAIによれば、エージェントが真に有用であるためには、テキストだけでなく自然な音声言語を使って直感的なコミュニケーションができることが重要だと考えています。

新しい音声認識モデル（Speech-to-Text）

今回発表された「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」の2つのモデルは、これまでのWhisperモデルと比較して単語誤り率（WER）が大幅に改善されています。特に、アクセント、騒がしい環境、さまざまな発話速度などの難しいシナリオでの精度と信頼性が向上しています。

これらの改善は、強化学習の革新と多様で高品質なオーディオデータセットによる中間訓練から直接得られたものです。その結果、これらの新しい音声認識モデルは音声のニュアンスをより適切に捉え、誤認識を減らし、特に難しい環境での転写の信頼性を高めることができます。

新しい音声合成モデル（Text-to-Speech）

また、OpenAIは新しい「gpt-4o-mini-tts」モデルも発表しました。このモデルの特徴は、より優れた「誘導可能性（steerability）」を持つことです。開発者は初めて、モデルに対して「何を言うか」だけでなく「どのように言うか」も指示できるようになりました。

例えば「共感的なカスタマーサービスエージェントのように話して」というように指示することで、カスタマーサービスの声からクリエイティブなストーリーテリング体験のための表現豊かな語りまで、幅広いカスタマイズされたアプリケーションが可能になります。

モデルの技術的革新

これらの新しいオーディオモデルは、GPT-4oおよびGPT-4o-miniアーキテクチャをベースに構築され、特殊なオーディオ中心のデータセットで広範に事前訓練されています。OpenAIによると、このターゲットを絞ったアプローチにより、音声のニュアンスへの深い洞察が得られ、オーディオ関連タスクで優れたパフォーマンスを発揮できるとしています。

OpenAIは以下の技術的革新を強調しています：

本物のオーディオデータセットによる事前訓練：特殊なオーディオ中心のデータセットによる最適化
高度な蒸留手法：最大のオーディオモデルから小型で効率的なモデルへの知識移転を実現
強化学習パラダイム：音声認識モデルにおける精度向上と幻覚（ハルシネーション）削減を達成

API利用可能性と今後の展望

これらの新しいオーディオモデルは、すべての開発者が現在利用可能です。テキストベースのモデルを使って会話体験を構築している開発者にとって、音声認識と音声合成モデルを追加することは、音声エージェントを構築する最もシンプルな方法となります。

OpenAIは今後、オーディオモデルのインテリジェンスと精度の向上に引き続き投資する計画で、安全基準に沿った形でカスタム音声を導入し、より個人化された体験を構築できるようにする方法も模索しています。

さらに、開発者がマルチモーダルなエージェント体験を構築できるよう、ビデオを含む他のモダリティにも投資していく予定です。

出典: OpenAI - New Audio Models for Developers（2025年3月20日）

OpenAIが次世代オーディオモデルをAPI向けに発表

新しい音声認識モデル（Speech-to-Text）

新しい音声合成モデル（Text-to-Speech）

モデルの技術的革新

API利用可能性と今後の展望

この記事に関連するおすすめ書籍

仕組みからわかる大規模言語モデル 生成AI時代のソフトウェア開発入門

誰でもわかる大規模言語モデル入門

LangChain完全入門 生成AIアプリケーション開発がはかどる大規模言語モデルの操り方

ゼロから作るDeep Learning

マスターアルゴリズム 世界を再構築する「究極の機械学習」

人工知能は人間を超えるか ディープラーニングの先にあるもの

大規模言語モデルは新たな知能か ChatGPTが変えた世界

AIと人類

AI vs. 教科書が読めない子どもたち

仕組みからわかる大規模言語モデル　生成AI時代のソフトウェア開発入門

LangChain完全入門　生成AIアプリケーション開発がはかどる大規模言語モデルの操り方

マスターアルゴリズム　世界を再構築する「究極の機械学習」

人工知能は人間を超えるか　ディープラーニングの先にあるもの

大規模言語モデルは新たな知能か　ChatGPTが変えた世界