マルチモーダルモデル
マルチモーダルモデル
テキスト、画像、音声、動画を統合処理するマルチモーダルAI。Vision Transformer、CLIP、Vision-Language Models、拡散モデル、ネイティブマルチモーダルの技術と進化。
最終更新:2025年11月
1. マルチモーダルAIとは
1.1 定義
マルチモーダルAI:複数の入力形式(モダリティ)を処理・生成できるAIシステム。
主要なモダリティ:
- テキスト:自然言語、コード
- 画像:写真、図表、スクリーンショット
- 音声:音声、音楽、効果音
- 動画:映像(画像 + 時間 + 音声)
1.2 マルチモーダル処理の種類
- 理解(Understanding):複数モダリティの入力を理解
- 画像キャプショニング
- 視覚的質問応答(VQA)
- 音声認識
- 生成(Generation):モダリティ間の変換・生成
- Text-to-Image(DALL-E、Stable Diffusion)
- Text-to-Speech(TTS)
- Text-to-Video(Sora)
- 統合(Integration):複数モダリティの同時処理
- 画像付き質問への回答
- 動画の内容説明
- リアルタイム音声対話
1.3 なぜマルチモーダルが重要か
- 人間の認知に近い:人間は多感覚で世界を理解
- 言語の限界を超える:「百聞は一見に如かず」
- 実世界タスク:ロボティクス、自動運転に必須
- AGIへの道:汎用知能には多様な入力処理が必要
2. 視覚モデルの基盤
2.1 CNN(畳み込みニューラルネットワーク)
伝統的な画像認識の基盤(〜2020年):
- LeNet(1998):手書き数字認識
- AlexNet(2012):ImageNetブレイクスルー
- ResNet(2015):残差接続、152層
- EfficientNet(2019):効率的スケーリング
CNNの特徴:
- 局所的な特徴抽出(畳み込み)
- 空間的不変性(プーリング)
- 階層的な特徴学習
2.2 Vision Transformer(ViT)
ViT(Dosovitskiy et al., 2021):Transformerを画像認識に適用。
アーキテクチャ:
- パッチ分割:画像を16×16ピクセルのパッチに分割
- 線形埋め込み:各パッチを固定次元ベクトルに変換
- 位置埋め込み:パッチの位置情報を付加
- Transformer Encoder:Self-Attentionで処理
- [CLS]トークン:分類用の特殊トークン
ViTの革新:
- CNNの帰納バイアス(局所性)を排除
- グローバルな関係性を直接モデル化
- 大規模データでCNNを超える性能
- テキストTransformerとの統合が容易
2.3 ViTの派生・改良
- DeiT(2021):データ効率的な訓練
- Swin Transformer(2021):階層的構造、シフトウィンドウ
- BEiT(2021):BERT風の事前学習
- MAE(2022):マスク付き画像モデリング
3. Vision-Language Models
3.1 CLIP
CLIP(Contrastive Language-Image Pre-training、OpenAI 2021)
アーキテクチャ:
- 画像エンコーダ:ViTまたはResNet
- テキストエンコーダ:Transformer
- 対照学習:画像-テキストペアの類似度最大化
訓練:
- 4億の画像-テキストペア(WebImageText)
- 正のペア(同じ画像-テキスト)の類似度を最大化
- 負のペア(異なる画像-テキスト)の類似度を最小化
革新的な点:
- Zero-shot分類:未見のカテゴリを分類可能
- 自然言語による検索:任意のテキストで画像検索
- 転移学習:多様なタスクに適用可能
3.2 Vision-Language Models(VLM)の進化
| モデル | 年 | 特徴 |
|---|---|---|
| CLIP | 2021 | 対照学習、Zero-shot |
| BLIP | 2022 | キャプション生成、VQA |
| Flamingo | 2022 | Few-shot VLM、インターリーブ |
| BLIP-2 | 2023 | Q-Former、効率的統合 |
| LLaVA | 2023 | Visual Instruction Tuning |
| GPT-4V | 2023 | 高度なVQA、推論 |
3.3 LLaVA
LLaVA(Large Language and Vision Assistant、Liu et al. 2023)
アーキテクチャ:
- Vision Encoder:CLIP ViT-L/14
- Projection Layer:視覚特徴をLLM空間にマッピング
- LLM:Vicuna(LLaMAベース)
Visual Instruction Tuning:
- GPT-4で生成した視覚的指示データ
- 画像についての質問-回答ペア
- 少量データで高い性能を実現
3.4 GPT-4V / GPT-4o
GPT-4V(Vision):GPT-4の画像入力拡張。
能力:
- 複雑な画像理解と推論
- グラフ・チャートの解析
- OCR(文字認識)
- 画像に基づくコード生成
GPT-4o:ネイティブマルチモーダル統合。
- テキスト、画像、音声の統一処理
- 低レイテンシ音声対話
- リアルタイム翻訳
4. 画像生成モデル
4.1 拡散モデル(Diffusion Models)
基本原理:
- Forward Process:画像にノイズを段階的に追加(破壊)
- Reverse Process:ノイズから画像を段階的に復元(生成)
DDPM(Ho et al., 2020):
- Denoising Diffusion Probabilistic Models
- 1000ステップのノイズ除去
- 高品質だが低速
4.2 Latent Diffusion / Stable Diffusion
Latent Diffusion Models(Rombach et al., 2022):
- 潜在空間での拡散(計算効率向上)
- VAEで画像を潜在表現に圧縮
- U-Netでノイズ除去
- テキスト条件付け(CLIP/T5)
Stable Diffusion:
- Stability AIによるオープンソース実装
- 消費者GPUで動作可能
- SD 1.5 → SD 2.0 → SDXL → SD 3.0
4.3 DALL-E
DALL-E 2(OpenAI, 2022):
- CLIP + 拡散モデル
- 高品質なテキスト→画像生成
- Inpainting、Outpainting機能
DALL-E 3(OpenAI, 2023):
- キャプション精度の大幅向上
- テキストレンダリングの改善
- ChatGPT統合
4.4 その他の画像生成モデル
- Midjourney:アーティスティックな出力、Discord統合
- Imagen(Google):T5テキストエンコーダ使用
- FLUX(Black Forest Labs):SD開発者による新モデル
4.5 Classifier-Free Guidance
テキスト条件付け生成の重要技術:
- 条件付き/無条件の出力を混合
- Guidance Scale:テキスト忠実度の制御
- 高いスケール → テキストに忠実、多様性低下
5. 音声・動画モデル
5.1 音声認識(ASR)
Whisper(OpenAI, 2022):
- 68万時間の多言語音声データで訓練
- 99言語に対応
- Encoder-Decoderアーキテクチャ
- 転写、翻訳、言語識別を統合
特徴:
- ノイズ耐性が高い
- 句読点・フォーマット自動付与
- オープンソース
5.2 音声合成(TTS)
- Tacotron:Seq2Seqベース
- WaveNet(DeepMind):自己回帰的波形生成
- VITS:End-to-End、高速
- Bark(Suno AI):多言語、感情表現
- ElevenLabs:声のクローニング
5.3 音声LLM
AudioLM(Google, 2022):
- 音声の言語モデリング
- セマンティックトークン + アコースティックトークン
- 音声継続生成
音声統合LLM:
- GPT-4o:リアルタイム音声対話
- Gemini 2.0:ネイティブ音声入出力
- Claude:音声入力対応(2025年)
5.4 動画生成
Sora(OpenAI, 2024):
- テキストから最大1分の動画生成
- 時間的一貫性の維持
- 複雑なシーン、カメラワーク
- Diffusion Transformer(DiT)アーキテクチャ
その他の動画生成:
- Runway Gen-2/3:商用動画生成
- Pika Labs:スタイライズド動画
- Kling(Kuaishou):中国発、長時間生成
- Veo(Google):高品質動画生成
5.5 動画理解
- VideoLLM:動画のQ&A
- Gemini:長時間動画の理解(〜1時間)
- GPT-4o:動画フレームの分析
6. ネイティブマルチモーダル
6.1 統合アプローチの進化
従来のアプローチ(〜2023年):
- 別々に訓練されたエンコーダを接続
- CLIP Vision + LLM
- Adapter/Projectorで統合
ネイティブアプローチ(2024年〜):
- 訓練初期からマルチモーダル
- 統一されたトークン空間
- モダリティ間の深い統合
6.2 GPT-4o
特徴:
- テキスト、画像、音声を統一モデルで処理
- 音声入力→音声出力(テキスト中間表現なし)
- 320msの音声応答レイテンシ
- 感情、イントネーションの理解・生成
6.3 Gemini 2.0
特徴:
- ネイティブ画像生成(出力)
- ネイティブ音声生成(TTS不要)
- Project Astra:リアルタイムマルチモーダルエージェント
- 超長文脈(2M)でのマルチモーダル処理
6.4 なぜネイティブ統合が重要か
- 情報損失の軽減:中間表現での情報欠落を防止
- クロスモーダル推論:モダリティ間の関係性を深く理解
- 効率性:パイプラインの簡素化
- 表現力:音声の感情、画像の文脈をテキストに反映
6.5 統一トークン化
すべてのモダリティをトークンとして扱う:
- テキスト:BPE/SentencePieceトークン
- 画像:ViTパッチ or 離散化トークン
- 音声:セマンティック + アコースティックトークン
- 動画:時間軸を含むトークン列
統一されたトークン空間により、Transformerで一貫した処理が可能に。
6.6 AGIへの道
マルチモーダル統合がAGI実現に不可欠な理由:
- 世界モデル:視覚・言語・物理の統合理解
- Grounding:言語と現実世界の接地
- 汎用タスク:多様な入出力への対応
- エージェント能力:実世界での行動
7. 参考文献
主要論文
- Dosovitskiy et al. (2021). "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" ICLR(ViT)
- Radford et al. (2021). "Learning Transferable Visual Models From Natural Language Supervision"(CLIP)
- Liu et al. (2023). "Visual Instruction Tuning" NeurIPS(LLaVA)
- Ho et al. (2020). "Denoising Diffusion Probabilistic Models" NeurIPS(DDPM)
- Rombach et al. (2022). "High-Resolution Image Synthesis with Latent Diffusion Models" CVPR(Stable Diffusion)
- Radford et al. (2023). "Robust Speech Recognition via Large-Scale Weak Supervision"(Whisper)
技術レポート
- OpenAI (2024). "GPT-4o System Card"
- Google DeepMind (2024). "Gemini 2.0"
- OpenAI (2024). "Video generation models as world simulators"(Sora)