マルチモーダルモデル

テキスト、画像、音声、動画を統合処理するマルチモーダルAI。Vision Transformer、CLIP、Vision-Language Models、拡散モデル、ネイティブマルチモーダルの技術と進化。

最終更新:2025年11月

1. マルチモーダルAIとは

1.1 定義

マルチモーダルAI:複数の入力形式(モダリティ)を処理・生成できるAIシステム。

主要なモダリティ:

  • テキスト:自然言語、コード
  • 画像:写真、図表、スクリーンショット
  • 音声:音声、音楽、効果音
  • 動画:映像(画像 + 時間 + 音声)

1.2 マルチモーダル処理の種類

  • 理解(Understanding):複数モダリティの入力を理解
    • 画像キャプショニング
    • 視覚的質問応答(VQA)
    • 音声認識
  • 生成(Generation):モダリティ間の変換・生成
    • Text-to-Image(DALL-E、Stable Diffusion)
    • Text-to-Speech(TTS)
    • Text-to-Video(Sora)
  • 統合(Integration):複数モダリティの同時処理
    • 画像付き質問への回答
    • 動画の内容説明
    • リアルタイム音声対話

1.3 なぜマルチモーダルが重要か

  • 人間の認知に近い:人間は多感覚で世界を理解
  • 言語の限界を超える:「百聞は一見に如かず」
  • 実世界タスク:ロボティクス、自動運転に必須
  • AGIへの道:汎用知能には多様な入力処理が必要

2. 視覚モデルの基盤

2.1 CNN(畳み込みニューラルネットワーク)

伝統的な画像認識の基盤(〜2020年):

  • LeNet(1998):手書き数字認識
  • AlexNet(2012):ImageNetブレイクスルー
  • ResNet(2015):残差接続、152層
  • EfficientNet(2019):効率的スケーリング

CNNの特徴:

  • 局所的な特徴抽出(畳み込み)
  • 空間的不変性(プーリング)
  • 階層的な特徴学習

2.2 Vision Transformer(ViT)

ViT(Dosovitskiy et al., 2021):Transformerを画像認識に適用。

アーキテクチャ:

  1. パッチ分割:画像を16×16ピクセルのパッチに分割
  2. 線形埋め込み:各パッチを固定次元ベクトルに変換
  3. 位置埋め込み:パッチの位置情報を付加
  4. Transformer Encoder:Self-Attentionで処理
  5. [CLS]トークン:分類用の特殊トークン

ViTの革新:

  • CNNの帰納バイアス(局所性)を排除
  • グローバルな関係性を直接モデル化
  • 大規模データでCNNを超える性能
  • テキストTransformerとの統合が容易

2.3 ViTの派生・改良

  • DeiT(2021):データ効率的な訓練
  • Swin Transformer(2021):階層的構造、シフトウィンドウ
  • BEiT(2021):BERT風の事前学習
  • MAE(2022):マスク付き画像モデリング

3. Vision-Language Models

3.1 CLIP

CLIP(Contrastive Language-Image Pre-training、OpenAI 2021)

アーキテクチャ:

  • 画像エンコーダ:ViTまたはResNet
  • テキストエンコーダ:Transformer
  • 対照学習:画像-テキストペアの類似度最大化

訓練:

  • 4億の画像-テキストペア(WebImageText)
  • 正のペア(同じ画像-テキスト)の類似度を最大化
  • 負のペア(異なる画像-テキスト)の類似度を最小化

革新的な点:

  • Zero-shot分類:未見のカテゴリを分類可能
  • 自然言語による検索:任意のテキストで画像検索
  • 転移学習:多様なタスクに適用可能

3.2 Vision-Language Models(VLM)の進化

モデル 特徴
CLIP 2021 対照学習、Zero-shot
BLIP 2022 キャプション生成、VQA
Flamingo 2022 Few-shot VLM、インターリーブ
BLIP-2 2023 Q-Former、効率的統合
LLaVA 2023 Visual Instruction Tuning
GPT-4V 2023 高度なVQA、推論

3.3 LLaVA

LLaVA(Large Language and Vision Assistant、Liu et al. 2023)

アーキテクチャ:

  • Vision Encoder:CLIP ViT-L/14
  • Projection Layer:視覚特徴をLLM空間にマッピング
  • LLM:Vicuna(LLaMAベース)

Visual Instruction Tuning:

  • GPT-4で生成した視覚的指示データ
  • 画像についての質問-回答ペア
  • 少量データで高い性能を実現

3.4 GPT-4V / GPT-4o

GPT-4V(Vision):GPT-4の画像入力拡張。

能力:

  • 複雑な画像理解と推論
  • グラフ・チャートの解析
  • OCR(文字認識)
  • 画像に基づくコード生成

GPT-4o:ネイティブマルチモーダル統合。

  • テキスト、画像、音声の統一処理
  • 低レイテンシ音声対話
  • リアルタイム翻訳

4. 画像生成モデル

4.1 拡散モデル(Diffusion Models)

基本原理:

  1. Forward Process:画像にノイズを段階的に追加(破壊)
  2. Reverse Process:ノイズから画像を段階的に復元(生成)

DDPM(Ho et al., 2020):

  • Denoising Diffusion Probabilistic Models
  • 1000ステップのノイズ除去
  • 高品質だが低速

4.2 Latent Diffusion / Stable Diffusion

Latent Diffusion Models(Rombach et al., 2022):

  • 潜在空間での拡散(計算効率向上)
  • VAEで画像を潜在表現に圧縮
  • U-Netでノイズ除去
  • テキスト条件付け(CLIP/T5)

Stable Diffusion

  • Stability AIによるオープンソース実装
  • 消費者GPUで動作可能
  • SD 1.5 → SD 2.0 → SDXL → SD 3.0

4.3 DALL-E

DALL-E 2(OpenAI, 2022):

  • CLIP + 拡散モデル
  • 高品質なテキスト→画像生成
  • Inpainting、Outpainting機能

DALL-E 3(OpenAI, 2023):

  • キャプション精度の大幅向上
  • テキストレンダリングの改善
  • ChatGPT統合

4.4 その他の画像生成モデル

  • Midjourney:アーティスティックな出力、Discord統合
  • Imagen(Google):T5テキストエンコーダ使用
  • FLUX(Black Forest Labs):SD開発者による新モデル

4.5 Classifier-Free Guidance

テキスト条件付け生成の重要技術:

  • 条件付き/無条件の出力を混合
  • Guidance Scale:テキスト忠実度の制御
  • 高いスケール → テキストに忠実、多様性低下

5. 音声・動画モデル

5.1 音声認識(ASR)

Whisper(OpenAI, 2022):

  • 68万時間の多言語音声データで訓練
  • 99言語に対応
  • Encoder-Decoderアーキテクチャ
  • 転写、翻訳、言語識別を統合

特徴:

  • ノイズ耐性が高い
  • 句読点・フォーマット自動付与
  • オープンソース

5.2 音声合成(TTS)

  • Tacotron:Seq2Seqベース
  • WaveNet(DeepMind):自己回帰的波形生成
  • VITS:End-to-End、高速
  • Bark(Suno AI):多言語、感情表現
  • ElevenLabs:声のクローニング

5.3 音声LLM

AudioLM(Google, 2022):

  • 音声の言語モデリング
  • セマンティックトークン + アコースティックトークン
  • 音声継続生成

音声統合LLM:

  • GPT-4o:リアルタイム音声対話
  • Gemini 2.0:ネイティブ音声入出力
  • Claude:音声入力対応(2025年)

5.4 動画生成

Sora(OpenAI, 2024):

  • テキストから最大1分の動画生成
  • 時間的一貫性の維持
  • 複雑なシーン、カメラワーク
  • Diffusion Transformer(DiT)アーキテクチャ

その他の動画生成:

  • Runway Gen-2/3:商用動画生成
  • Pika Labs:スタイライズド動画
  • Kling(Kuaishou):中国発、長時間生成
  • Veo(Google):高品質動画生成

5.5 動画理解

  • VideoLLM:動画のQ&A
  • Gemini:長時間動画の理解(〜1時間)
  • GPT-4o:動画フレームの分析

6. ネイティブマルチモーダル

6.1 統合アプローチの進化

従来のアプローチ(〜2023年):

  • 別々に訓練されたエンコーダを接続
  • CLIP Vision + LLM
  • Adapter/Projectorで統合

ネイティブアプローチ(2024年〜):

  • 訓練初期からマルチモーダル
  • 統一されたトークン空間
  • モダリティ間の深い統合

6.2 GPT-4o

特徴:

  • テキスト、画像、音声を統一モデルで処理
  • 音声入力→音声出力(テキスト中間表現なし)
  • 320msの音声応答レイテンシ
  • 感情、イントネーションの理解・生成

6.3 Gemini 2.0

特徴:

  • ネイティブ画像生成(出力)
  • ネイティブ音声生成(TTS不要)
  • Project Astra:リアルタイムマルチモーダルエージェント
  • 超長文脈(2M)でのマルチモーダル処理

6.4 なぜネイティブ統合が重要か

  • 情報損失の軽減:中間表現での情報欠落を防止
  • クロスモーダル推論:モダリティ間の関係性を深く理解
  • 効率性:パイプラインの簡素化
  • 表現力:音声の感情、画像の文脈をテキストに反映

6.5 統一トークン化

すべてのモダリティをトークンとして扱う:

  • テキスト:BPE/SentencePieceトークン
  • 画像:ViTパッチ or 離散化トークン
  • 音声:セマンティック + アコースティックトークン
  • 動画:時間軸を含むトークン列

統一されたトークン空間により、Transformerで一貫した処理が可能に。

6.6 AGIへの道

マルチモーダル統合がAGI実現に不可欠な理由:

  • 世界モデル:視覚・言語・物理の統合理解
  • Grounding:言語と現実世界の接地
  • 汎用タスク:多様な入出力への対応
  • エージェント能力:実世界での行動

7. 参考文献

主要論文

  • Dosovitskiy et al. (2021). "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" ICLR(ViT)
  • Radford et al. (2021). "Learning Transferable Visual Models From Natural Language Supervision"(CLIP)
  • Liu et al. (2023). "Visual Instruction Tuning" NeurIPS(LLaVA)
  • Ho et al. (2020). "Denoising Diffusion Probabilistic Models" NeurIPS(DDPM)
  • Rombach et al. (2022). "High-Resolution Image Synthesis with Latent Diffusion Models" CVPR(Stable Diffusion)
  • Radford et al. (2023). "Robust Speech Recognition via Large-Scale Weak Supervision"(Whisper)

技術レポート

  • OpenAI (2024). "GPT-4o System Card"
  • Google DeepMind (2024). "Gemini 2.0"
  • OpenAI (2024). "Video generation models as world simulators"(Sora)