音声モデル

音声認識(ASR)と音声合成(TTS)。Whisper、AudioLM、ElevenLabs、リアルタイム音声処理。

最終更新:2025年11月

1. 音声AIの概要

1.1 音声処理タスク

タスク 入力 出力
ASR(音声認識) 音声 テキスト
TTS(音声合成) テキスト 音声
Voice Cloning 参照音声+テキスト 複製音声
Speech Translation 音声(言語A) テキスト(言語B)
Speaker Diarization 音声 話者分離

1.2 音声の表現

  • 波形(Waveform):生の音声信号
  • メルスペクトログラム:時間-周波数表現
  • 音声トークン:離散化された音声表現

1.3 音声処理の進化

  • 従来:HMM + GMM、複雑なパイプライン
  • 深層学習:End-to-End、CTC損失
  • Transformer:大規模事前学習、マルチタスク

2. 音声認識(ASR)

2.1 End-to-End ASR

入力音声から直接テキストを出力。

  • CTC(Connectionist Temporal Classification)
  • Attention-based:Encoder-Decoder
  • RNN-T:ストリーミング対応

2.2 主要アーキテクチャ

モデル 特徴
wav2vec 2.0 自己教師あり事前学習
HuBERT 隠れユニット予測
Conformer CNN + Transformer
Whisper 大規模教師あり学習

2.3 評価指標

  • WER(Word Error Rate):単語誤り率
  • CER(Character Error Rate):文字誤り率
  • WER = (置換 + 削除 + 挿入) / 参照単語数

3. Whisper

3.1 概要

Whisper(Radford et al. 2023):OpenAIの汎用音声モデル。

  • 68万時間の多言語音声データで訓練
  • 99言語の認識・翻訳に対応
  • ノイズ耐性が高い

3.2 アーキテクチャ

音声 → メルスペクトログラム → Encoder → Decoder → テキスト

- Encoder: Transformer(音声特徴抽出)
- Decoder: Transformer(テキスト生成)
- 30秒のウィンドウで処理

3.3 モデルサイズ

サイズ パラメータ 用途
tiny 39M 軽量・高速
base 74M バランス
small 244M -
medium 769M -
large 1550M 最高精度

3.4 マルチタスク

特殊トークンでタスクを指定:

  • 転写:音声をそのままテキスト化
  • 翻訳:音声を英語テキストに
  • タイムスタンプ:単語レベルの時刻情報
  • 言語識別:話されている言語を特定

3.5 高速化

  • faster-whisper:CTranslate2による高速実装
  • whisper.cpp:C++実装、CPU対応
  • Distil-Whisper:蒸留版

4. 音声合成(TTS)

4.1 TTSの構成要素

テキスト → [Text Encoder] → 言語特徴
                    ↓
         [Acoustic Model] → メルスペクトログラム
                    ↓
            [Vocoder] → 波形

4.2 従来のTTS

  • 連結合成:録音断片の結合
  • パラメトリック合成:HMMベース
  • 機械的な音質が課題

4.3 ニューラルVocoder

モデル 手法 特徴
WaveNet 自己回帰 高品質、低速
WaveGlow Flow 並列生成
HiFi-GAN GAN 高速・高品質

5. ニューラルTTS

5.1 Tacotron系

End-to-End TTS:

  • Tacotron(Google 2017)
  • Tacotron 2:Attention改良、WaveNet vocoder
  • 自然な韻律・イントネーション

5.2 FastSpeech系

非自己回帰TTS:

  • FastSpeech:並列生成で高速化
  • FastSpeech 2:ピッチ・エネルギー制御
  • Duration Predictor でテキスト-音声のアラインメント

5.3 VITS

Kim et al. (2021):End-to-End TTS。

  • VAE + Flow + 敵対的学習
  • 中間表現なしでテキストから波形
  • 高品質かつ高速

5.4 商用TTS

サービス 特徴
ElevenLabs Voice Cloning、高品質
OpenAI TTS GPT統合、6音声
Google Cloud TTS 多言語、WaveNet
Amazon Polly Neural TTS、SSML

5.5 Voice Cloning

少量の音声サンプルから声を複製:

  • Speaker Embedding で話者特性を抽出
  • 数秒〜数分の参照音声で複製可能
  • 倫理的懸念(ディープフェイク音声)

6. Audio Language Models

6.1 概要

LLMの音声版:音声を言語のように生成。

6.2 AudioLM

Google(Borsos et al. 2023):

  • 音声をトークンに離散化
  • Semantic tokens + Acoustic tokens
  • 階層的な生成(意味→音響)

6.3 音声トークン化

手法 特徴
SoundStream 残差ベクトル量子化
EnCodec Meta、高圧縮
w2v-BERT 意味的トークン

6.4 マルチモーダル音声モデル

  • GPT-4o:ネイティブ音声入出力
  • Gemini:音声・テキスト・画像統合
  • Gemini 2.0 Flash:音声出力対応

6.5 リアルタイム音声対話

低レイテンシの音声-音声対話:

  • 従来:ASR → LLM → TTS(数秒の遅延)
  • GPT-4o:音声直接処理(〜300ms)
  • 自然な会話的やり取りが可能に

7. 応用

7.1 音声アシスタント

  • Siri、Alexa、Google Assistant
  • スマートスピーカー
  • 車載音声システム

7.2 アクセシビリティ

  • 聴覚障害者向けリアルタイム字幕
  • 視覚障害者向け読み上げ
  • 音声入力インターフェース

7.3 コンテンツ制作

  • ポッドキャスト・動画のナレーション
  • オーディオブック生成
  • ゲームのNPC音声

7.4 ビジネス応用

  • コールセンター自動化
  • 会議の文字起こし・要約
  • 多言語カスタマーサポート

7.5 倫理的課題

  • 音声ディープフェイク
  • なりすまし・詐欺
  • 同意なき声の利用
  • 検出・透かし技術の必要性

8. 参考文献

音声認識

  • Radford et al. (2023). "Robust Speech Recognition via Large-Scale Weak Supervision" ICML(Whisper)
  • Baevski et al. (2020). "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations" NeurIPS

音声合成

  • Shen et al. (2018). "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions" ICASSP(Tacotron 2)
  • Kim et al. (2021). "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech" ICML(VITS)

Audio Language Models

  • Borsos et al. (2023). "AudioLM: a Language Modeling Approach to Audio Generation" TALSP
  • Défossez et al. (2022). "High Fidelity Neural Audio Compression" arXiv(EnCodec)