マルチモーダルモデル

テキスト、画像、音声、動画を統合処理するマルチモーダルAI。Vision Transformer、CLIP、Vision-Language Models、拡散モデル、ネイティブマルチモーダルの技術と進化。

最終更新：2025年11月

1. マルチモーダルAIとは

1.1 定義

マルチモーダルAI：複数の入力形式（モダリティ）を処理・生成できるAIシステム。

主要なモダリティ：

テキスト：自然言語、コード
画像：写真、図表、スクリーンショット
音声：音声、音楽、効果音
動画：映像（画像 + 時間 + 音声）

1.2 マルチモーダル処理の種類

理解（Understanding）：複数モダリティの入力を理解
- 画像キャプショニング
- 視覚的質問応答（VQA）
- 音声認識
生成（Generation）：モダリティ間の変換・生成
- Text-to-Image（DALL-E、Stable Diffusion）
- Text-to-Speech（TTS）
- Text-to-Video（Sora）
統合（Integration）：複数モダリティの同時処理
- 画像付き質問への回答
- 動画の内容説明
- リアルタイム音声対話

1.3 なぜマルチモーダルが重要か

人間の認知に近い：人間は多感覚で世界を理解
言語の限界を超える：「百聞は一見に如かず」
実世界タスク：ロボティクス、自動運転に必須
AGIへの道：汎用知能には多様な入力処理が必要

2. 視覚モデルの基盤

2.1 CNN（畳み込みニューラルネットワーク）

伝統的な画像認識の基盤（〜2020年）：

LeNet（1998）：手書き数字認識
AlexNet（2012）：ImageNetブレイクスルー
ResNet（2015）：残差接続、152層
EfficientNet（2019）：効率的スケーリング

CNNの特徴：

局所的な特徴抽出（畳み込み）
空間的不変性（プーリング）
階層的な特徴学習

2.2 Vision Transformer（ViT）

ViT（Dosovitskiy et al., 2021）：Transformerを画像認識に適用。

アーキテクチャ：

パッチ分割：画像を16×16ピクセルのパッチに分割
線形埋め込み：各パッチを固定次元ベクトルに変換
位置埋め込み：パッチの位置情報を付加
Transformer Encoder：Self-Attentionで処理
[CLS]トークン：分類用の特殊トークン

ViTの革新：

CNNの帰納バイアス（局所性）を排除
グローバルな関係性を直接モデル化
大規模データでCNNを超える性能
テキストTransformerとの統合が容易

2.3 ViTの派生・改良

DeiT（2021）：データ効率的な訓練
Swin Transformer（2021）：階層的構造、シフトウィンドウ
BEiT（2021）：BERT風の事前学習
MAE（2022）：マスク付き画像モデリング

3. Vision-Language Models

3.1 CLIP

CLIP（Contrastive Language-Image Pre-training、OpenAI 2021）

アーキテクチャ：

画像エンコーダ：ViTまたはResNet
テキストエンコーダ：Transformer
対照学習：画像-テキストペアの類似度最大化

訓練：

4億の画像-テキストペア（WebImageText）
正のペア（同じ画像-テキスト）の類似度を最大化
負のペア（異なる画像-テキスト）の類似度を最小化

革新的な点：

Zero-shot分類：未見のカテゴリを分類可能
自然言語による検索：任意のテキストで画像検索
転移学習：多様なタスクに適用可能

3.2 Vision-Language Models（VLM）の進化

モデル	年	特徴
CLIP	2021	対照学習、Zero-shot
BLIP	2022	キャプション生成、VQA
Flamingo	2022	Few-shot VLM、インターリーブ
BLIP-2	2023	Q-Former、効率的統合
LLaVA	2023	Visual Instruction Tuning
GPT-4V	2023	高度なVQA、推論

3.3 LLaVA

LLaVA（Large Language and Vision Assistant、Liu et al. 2023）

アーキテクチャ：

Vision Encoder：CLIP ViT-L/14
Projection Layer：視覚特徴をLLM空間にマッピング
LLM：Vicuna（LLaMAベース）

Visual Instruction Tuning：

GPT-4で生成した視覚的指示データ
画像についての質問-回答ペア
少量データで高い性能を実現

3.4 GPT-4V / GPT-4o

GPT-4V（Vision）：GPT-4の画像入力拡張。

能力：

複雑な画像理解と推論
グラフ・チャートの解析
OCR（文字認識）
画像に基づくコード生成

GPT-4o：ネイティブマルチモーダル統合。

テキスト、画像、音声の統一処理
低レイテンシ音声対話
リアルタイム翻訳

4. 画像生成モデル

4.1 拡散モデル（Diffusion Models）

基本原理：

Forward Process：画像にノイズを段階的に追加（破壊）
Reverse Process：ノイズから画像を段階的に復元（生成）

DDPM（Ho et al., 2020）：

Denoising Diffusion Probabilistic Models
1000ステップのノイズ除去
高品質だが低速

4.2 Latent Diffusion / Stable Diffusion

Latent Diffusion Models（Rombach et al., 2022）：

潜在空間での拡散（計算効率向上）
VAEで画像を潜在表現に圧縮
U-Netでノイズ除去
テキスト条件付け（CLIP/T5）

Stable Diffusion：

Stability AIによるオープンソース実装
消費者GPUで動作可能
SD 1.5 → SD 2.0 → SDXL → SD 3.0

4.3 DALL-E

DALL-E 2（OpenAI, 2022）：

CLIP + 拡散モデル
高品質なテキスト→画像生成
Inpainting、Outpainting機能

DALL-E 3（OpenAI, 2023）：

キャプション精度の大幅向上
テキストレンダリングの改善
ChatGPT統合

4.4 その他の画像生成モデル

Midjourney：アーティスティックな出力、Discord統合
Imagen（Google）：T5テキストエンコーダ使用
FLUX（Black Forest Labs）：SD開発者による新モデル

4.5 Classifier-Free Guidance

テキスト条件付け生成の重要技術：

条件付き/無条件の出力を混合
Guidance Scale：テキスト忠実度の制御
高いスケール → テキストに忠実、多様性低下

5. 音声・動画モデル

5.1 音声認識（ASR）

Whisper（OpenAI, 2022）：

68万時間の多言語音声データで訓練
99言語に対応
Encoder-Decoderアーキテクチャ
転写、翻訳、言語識別を統合

特徴：

ノイズ耐性が高い
句読点・フォーマット自動付与
オープンソース

5.2 音声合成（TTS）

Tacotron：Seq2Seqベース
WaveNet（DeepMind）：自己回帰的波形生成
VITS：End-to-End、高速
Bark（Suno AI）：多言語、感情表現
ElevenLabs：声のクローニング

5.3 音声LLM

AudioLM（Google, 2022）：

音声の言語モデリング
セマンティックトークン + アコースティックトークン
音声継続生成

音声統合LLM：

GPT-4o：リアルタイム音声対話
Gemini 2.0：ネイティブ音声入出力
Claude：音声入力対応（2025年）

5.4 動画生成

Sora（OpenAI, 2024）：

テキストから最大1分の動画生成
時間的一貫性の維持
複雑なシーン、カメラワーク
Diffusion Transformer（DiT）アーキテクチャ

その他の動画生成：

Runway Gen-2/3：商用動画生成
Pika Labs：スタイライズド動画
Kling（Kuaishou）：中国発、長時間生成
Veo（Google）：高品質動画生成

5.5 動画理解

VideoLLM：動画のQ&A
Gemini：長時間動画の理解（〜1時間）
GPT-4o：動画フレームの分析

6. ネイティブマルチモーダル

6.1 統合アプローチの進化

従来のアプローチ（〜2023年）：

別々に訓練されたエンコーダを接続
CLIP Vision + LLM
Adapter/Projectorで統合

ネイティブアプローチ（2024年〜）：

訓練初期からマルチモーダル
統一されたトークン空間
モダリティ間の深い統合

6.2 GPT-4o

特徴：

テキスト、画像、音声を統一モデルで処理
音声入力→音声出力（テキスト中間表現なし）
320msの音声応答レイテンシ
感情、イントネーションの理解・生成

6.3 Gemini 2.0

特徴：

ネイティブ画像生成（出力）
ネイティブ音声生成（TTS不要）
Project Astra：リアルタイムマルチモーダルエージェント
超長文脈（2M）でのマルチモーダル処理

6.4 なぜネイティブ統合が重要か

情報損失の軽減：中間表現での情報欠落を防止
クロスモーダル推論：モダリティ間の関係性を深く理解
効率性：パイプラインの簡素化
表現力：音声の感情、画像の文脈をテキストに反映

6.5 統一トークン化

すべてのモダリティをトークンとして扱う：

テキスト：BPE/SentencePieceトークン
画像：ViTパッチ or 離散化トークン
音声：セマンティック + アコースティックトークン
動画：時間軸を含むトークン列

統一されたトークン空間により、Transformerで一貫した処理が可能に。

6.6 AGIへの道

マルチモーダル統合がAGI実現に不可欠な理由：

世界モデル：視覚・言語・物理の統合理解
Grounding：言語と現実世界の接地
汎用タスク：多様な入出力への対応
エージェント能力：実世界での行動

7. 参考文献

主要論文

Dosovitskiy et al. (2021). "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale" ICLR（ViT）
Radford et al. (2021). "Learning Transferable Visual Models From Natural Language Supervision"（CLIP）
Liu et al. (2023). "Visual Instruction Tuning" NeurIPS（LLaVA）
Ho et al. (2020). "Denoising Diffusion Probabilistic Models" NeurIPS（DDPM）
Rombach et al. (2022). "High-Resolution Image Synthesis with Latent Diffusion Models" CVPR（Stable Diffusion）
Radford et al. (2023). "Robust Speech Recognition via Large-Scale Weak Supervision"（Whisper）

技術レポート

OpenAI (2024). "GPT-4o System Card"
Google DeepMind (2024). "Gemini 2.0"
OpenAI (2024). "Video generation models as world simulators"（Sora）