1. 音声AIの概要
1.1 音声処理タスク
| タスク |
入力 |
出力 |
| ASR(音声認識) |
音声 |
テキスト |
| TTS(音声合成) |
テキスト |
音声 |
| Voice Cloning |
参照音声+テキスト |
複製音声 |
| Speech Translation |
音声(言語A) |
テキスト(言語B) |
| Speaker Diarization |
音声 |
話者分離 |
1.2 音声の表現
- 波形(Waveform):生の音声信号
- メルスペクトログラム:時間-周波数表現
- 音声トークン:離散化された音声表現
1.3 音声処理の進化
- 従来:HMM + GMM、複雑なパイプライン
- 深層学習:End-to-End、CTC損失
- Transformer:大規模事前学習、マルチタスク
2. 音声認識(ASR)
2.1 End-to-End ASR
入力音声から直接テキストを出力。
- CTC(Connectionist Temporal Classification)
- Attention-based:Encoder-Decoder
- RNN-T:ストリーミング対応
2.2 主要アーキテクチャ
| モデル |
特徴 |
| wav2vec 2.0 |
自己教師あり事前学習 |
| HuBERT |
隠れユニット予測 |
| Conformer |
CNN + Transformer |
| Whisper |
大規模教師あり学習 |
2.3 評価指標
- WER(Word Error Rate):単語誤り率
- CER(Character Error Rate):文字誤り率
- WER = (置換 + 削除 + 挿入) / 参照単語数
3. Whisper
3.1 概要
Whisper(Radford et al. 2023):OpenAIの汎用音声モデル。
- 68万時間の多言語音声データで訓練
- 99言語の認識・翻訳に対応
- ノイズ耐性が高い
3.2 アーキテクチャ
音声 → メルスペクトログラム → Encoder → Decoder → テキスト
- Encoder: Transformer(音声特徴抽出)
- Decoder: Transformer(テキスト生成)
- 30秒のウィンドウで処理
3.3 モデルサイズ
| サイズ |
パラメータ |
用途 |
| tiny |
39M |
軽量・高速 |
| base |
74M |
バランス |
| small |
244M |
- |
| medium |
769M |
- |
| large |
1550M |
最高精度 |
3.4 マルチタスク
特殊トークンでタスクを指定:
- 転写:音声をそのままテキスト化
- 翻訳:音声を英語テキストに
- タイムスタンプ:単語レベルの時刻情報
- 言語識別:話されている言語を特定
3.5 高速化
- faster-whisper:CTranslate2による高速実装
- whisper.cpp:C++実装、CPU対応
- Distil-Whisper:蒸留版
4. 音声合成(TTS)
4.1 TTSの構成要素
テキスト → [Text Encoder] → 言語特徴
↓
[Acoustic Model] → メルスペクトログラム
↓
[Vocoder] → 波形
4.2 従来のTTS
- 連結合成:録音断片の結合
- パラメトリック合成:HMMベース
- 機械的な音質が課題
4.3 ニューラルVocoder
| モデル |
手法 |
特徴 |
| WaveNet |
自己回帰 |
高品質、低速 |
| WaveGlow |
Flow |
並列生成 |
| HiFi-GAN |
GAN |
高速・高品質 |
5. ニューラルTTS
5.1 Tacotron系
End-to-End TTS:
- Tacotron(Google 2017)
- Tacotron 2:Attention改良、WaveNet vocoder
- 自然な韻律・イントネーション
5.2 FastSpeech系
非自己回帰TTS:
- FastSpeech:並列生成で高速化
- FastSpeech 2:ピッチ・エネルギー制御
- Duration Predictor でテキスト-音声のアラインメント
5.3 VITS
Kim et al. (2021):End-to-End TTS。
- VAE + Flow + 敵対的学習
- 中間表現なしでテキストから波形
- 高品質かつ高速
5.4 商用TTS
| サービス |
特徴 |
| ElevenLabs |
Voice Cloning、高品質 |
| OpenAI TTS |
GPT統合、6音声 |
| Google Cloud TTS |
多言語、WaveNet |
| Amazon Polly |
Neural TTS、SSML |
5.5 Voice Cloning
少量の音声サンプルから声を複製:
- Speaker Embedding で話者特性を抽出
- 数秒〜数分の参照音声で複製可能
- 倫理的懸念(ディープフェイク音声)
6. Audio Language Models
6.1 概要
LLMの音声版:音声を言語のように生成。
6.2 AudioLM
Google(Borsos et al. 2023):
- 音声をトークンに離散化
- Semantic tokens + Acoustic tokens
- 階層的な生成(意味→音響)
6.3 音声トークン化
| 手法 |
特徴 |
| SoundStream |
残差ベクトル量子化 |
| EnCodec |
Meta、高圧縮 |
| w2v-BERT |
意味的トークン |
6.4 マルチモーダル音声モデル
- GPT-4o:ネイティブ音声入出力
- Gemini:音声・テキスト・画像統合
- Gemini 2.0 Flash:音声出力対応
6.5 リアルタイム音声対話
低レイテンシの音声-音声対話:
- 従来:ASR → LLM → TTS(数秒の遅延)
- GPT-4o:音声直接処理(〜300ms)
- 自然な会話的やり取りが可能に
7. 応用
7.1 音声アシスタント
- Siri、Alexa、Google Assistant
- スマートスピーカー
- 車載音声システム
7.2 アクセシビリティ
- 聴覚障害者向けリアルタイム字幕
- 視覚障害者向け読み上げ
- 音声入力インターフェース
7.3 コンテンツ制作
- ポッドキャスト・動画のナレーション
- オーディオブック生成
- ゲームのNPC音声
7.4 ビジネス応用
- コールセンター自動化
- 会議の文字起こし・要約
- 多言語カスタマーサポート
7.5 倫理的課題
- 音声ディープフェイク
- なりすまし・詐欺
- 同意なき声の利用
- 検出・透かし技術の必要性
8. 参考文献
音声認識
- Radford et al. (2023). "Robust Speech Recognition via Large-Scale Weak Supervision" ICML(Whisper)
- Baevski et al. (2020). "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations" NeurIPS
音声合成
- Shen et al. (2018). "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions" ICASSP(Tacotron 2)
- Kim et al. (2021). "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech" ICML(VITS)
Audio Language Models
- Borsos et al. (2023). "AudioLM: a Language Modeling Approach to Audio Generation" TALSP
- Défossez et al. (2022). "High Fidelity Neural Audio Compression" arXiv(EnCodec)