音声モデル - AI入門 - はとはとプロジェクト

1. 音声AIの概要

1.1 音声処理タスク

タスク	入力	出力
ASR（音声認識）	音声	テキスト
TTS（音声合成）	テキスト	音声
Voice Cloning	参照音声+テキスト	複製音声
Speech Translation	音声（言語A）	テキスト（言語B）
Speaker Diarization	音声	話者分離

1.2 音声の表現

波形（Waveform）：生の音声信号
メルスペクトログラム：時間-周波数表現
音声トークン：離散化された音声表現

1.3 音声処理の進化

従来：HMM + GMM、複雑なパイプライン
深層学習：End-to-End、CTC損失
Transformer：大規模事前学習、マルチタスク

2. 音声認識（ASR）

2.1 End-to-End ASR

入力音声から直接テキストを出力。

CTC（Connectionist Temporal Classification）
Attention-based：Encoder-Decoder
RNN-T：ストリーミング対応

2.2 主要アーキテクチャ

モデル	特徴
wav2vec 2.0	自己教師あり事前学習
HuBERT	隠れユニット予測
Conformer	CNN + Transformer
Whisper	大規模教師あり学習

2.3 評価指標

WER（Word Error Rate）：単語誤り率
CER（Character Error Rate）：文字誤り率
WER = (置換 + 削除 + 挿入) / 参照単語数

3. Whisper

3.1 概要

Whisper（Radford et al. 2023）：OpenAIの汎用音声モデル。

68万時間の多言語音声データで訓練
99言語の認識・翻訳に対応
ノイズ耐性が高い

3.2 アーキテクチャ

音声 → メルスペクトログラム → Encoder → Decoder → テキスト

- Encoder: Transformer（音声特徴抽出）
- Decoder: Transformer（テキスト生成）
- 30秒のウィンドウで処理

3.3 モデルサイズ

サイズ	パラメータ	用途
tiny	39M	軽量・高速
base	74M	バランス
small	244M	-
medium	769M	-
large	1550M	最高精度

3.4 マルチタスク

特殊トークンでタスクを指定：

転写：音声をそのままテキスト化
翻訳：音声を英語テキストに
タイムスタンプ：単語レベルの時刻情報
言語識別：話されている言語を特定

3.5 高速化

faster-whisper：CTranslate2による高速実装
whisper.cpp：C++実装、CPU対応
Distil-Whisper：蒸留版

4. 音声合成（TTS）

4.1 TTSの構成要素

テキスト → [Text Encoder] → 言語特徴
                    ↓
         [Acoustic Model] → メルスペクトログラム
                    ↓
            [Vocoder] → 波形

4.2 従来のTTS

連結合成：録音断片の結合
パラメトリック合成：HMMベース
機械的な音質が課題

4.3 ニューラルVocoder

モデル	手法	特徴
WaveNet	自己回帰	高品質、低速
WaveGlow	Flow	並列生成
HiFi-GAN	GAN	高速・高品質

5. ニューラルTTS

5.1 Tacotron系

End-to-End TTS：

Tacotron（Google 2017）
Tacotron 2：Attention改良、WaveNet vocoder
自然な韻律・イントネーション

5.2 FastSpeech系

非自己回帰TTS：

FastSpeech：並列生成で高速化
FastSpeech 2：ピッチ・エネルギー制御
Duration Predictor でテキスト-音声のアラインメント

5.3 VITS

Kim et al. (2021)：End-to-End TTS。

VAE + Flow + 敵対的学習
中間表現なしでテキストから波形
高品質かつ高速

5.4 商用TTS

サービス	特徴
ElevenLabs	Voice Cloning、高品質
OpenAI TTS	GPT統合、6音声
Google Cloud TTS	多言語、WaveNet
Amazon Polly	Neural TTS、SSML

5.5 Voice Cloning

少量の音声サンプルから声を複製：

Speaker Embedding で話者特性を抽出
数秒〜数分の参照音声で複製可能
倫理的懸念（ディープフェイク音声）

6. Audio Language Models

6.1 概要

LLMの音声版：音声を言語のように生成。

6.2 AudioLM

Google（Borsos et al. 2023）：

音声をトークンに離散化
Semantic tokens + Acoustic tokens
階層的な生成（意味→音響）

6.3 音声トークン化

手法	特徴
SoundStream	残差ベクトル量子化
EnCodec	Meta、高圧縮
w2v-BERT	意味的トークン

6.4 マルチモーダル音声モデル

GPT-4o：ネイティブ音声入出力
Gemini：音声・テキスト・画像統合
Gemini 2.0 Flash：音声出力対応

6.5 リアルタイム音声対話

低レイテンシの音声-音声対話：

従来：ASR → LLM → TTS（数秒の遅延）
GPT-4o：音声直接処理（〜300ms）
自然な会話的やり取りが可能に

7. 応用

7.1 音声アシスタント

Siri、Alexa、Google Assistant
スマートスピーカー
車載音声システム

7.2 アクセシビリティ

聴覚障害者向けリアルタイム字幕
視覚障害者向け読み上げ
音声入力インターフェース

7.3 コンテンツ制作

ポッドキャスト・動画のナレーション
オーディオブック生成
ゲームのNPC音声

7.4 ビジネス応用

コールセンター自動化
会議の文字起こし・要約
多言語カスタマーサポート

7.5 倫理的課題

音声ディープフェイク
なりすまし・詐欺
同意なき声の利用
検出・透かし技術の必要性

8. 参考文献

音声認識

Radford et al. (2023). "Robust Speech Recognition via Large-Scale Weak Supervision" ICML（Whisper）
Baevski et al. (2020). "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations" NeurIPS

音声合成

Shen et al. (2018). "Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions" ICASSP（Tacotron 2）
Kim et al. (2021). "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech" ICML（VITS）

Audio Language Models

Borsos et al. (2023). "AudioLM: a Language Modeling Approach to Audio Generation" TALSP
Défossez et al. (2022). "High Fidelity Neural Audio Compression" arXiv（EnCodec）