※画像は生成AIによるイメージです。
1. Vision-Languageの概要
1.1 マルチモーダルAIとは
複数のモダリティ(データ形式)を統合的に処理するAI。
- モダリティ:テキスト、画像、音声、動画など
- Vision-Language:画像とテキストの統合
- 人間の知覚に近い統合的理解を目指す
1.2 Vision-Languageタスク
| タスク |
入力 |
出力 |
| 画像キャプション生成 |
画像 |
説明テキスト |
| VQA(Visual QA) |
画像 + 質問 |
回答 |
| 画像検索 |
テキストクエリ |
関連画像 |
| Visual Grounding |
画像 + 参照表現 |
バウンディングボックス |
| 画像生成 |
テキスト |
画像 |
1.3 VLMの進化
- 初期:CNN + RNN(タスク特化)
- CLIP時代:対照学習による汎用表現
- LLM統合:LLMを言語デコーダとして活用
- ネイティブ:最初からマルチモーダルで訓練
2. CLIP
2.1 概要
CLIP(Contrastive Language-Image Pre-training)(Radford et al. 2021):
- 画像とテキストの対照学習
- 4億の画像-テキストペアで訓練
- Zero-shotで多様なタスクに対応
2.2 アーキテクチャ
- Image Encoder:ResNet or ViT
- Text Encoder:Transformer
- 両者を同じ埋め込み空間にマッピング
2.3 対照学習
バッチ内の正しい画像-テキストペアを識別:
バッチ: N個の (画像, テキスト) ペア
1. 各画像を Image Encoder で埋め込み → I_1, ..., I_N
2. 各テキストを Text Encoder で埋め込み → T_1, ..., T_N
3. N×N の類似度行列を計算
4. 対角成分(正しいペア)のスコアを最大化
非対角成分(間違ったペア)のスコアを最小化
2.4 Zero-shot分類
画像分類の例:
1. クラスラベルをテキストに変換
"a photo of a cat", "a photo of a dog", ...
2. 各テキストの埋め込みを計算
3. 入力画像の埋め込みを計算
4. 最も類似度の高いテキストのクラスを予測
2.5 CLIPの影響
- 画像生成モデルの条件付け(DALL-E、Stable Diffusion)
- VLMの画像エンコーダとして広く使用
- Zero-shot転移学習の可能性を実証
3. 画像エンコーダ
3.1 Vision Transformer (ViT)
Dosovitskiy et al. (2021):画像をパッチに分割してTransformerで処理。
- 画像を16×16や14×14のパッチに分割
- 各パッチを線形投影してトークン化
- [CLS]トークンで画像全体を表現
- CNNを超える性能(十分なデータで)
3.2 主要な画像エンコーダ
| モデル |
特徴 |
使用例 |
| ViT-L/14 |
CLIP標準 |
LLaVA |
| SigLIP |
Sigmoid損失 |
PaliGemma |
| EVA-CLIP |
大規模・高性能 |
InternVL |
| DINOv2 |
自己教師あり |
- |
3.3 解像度と効率
- 高解像度 → パッチ数増加 → 計算コスト増
- AnyRes:複数解像度で処理して統合
- Dynamic Resolution:画像に応じて解像度調整
4. VLMアーキテクチャ
4.1 基本構成
画像 → [画像エンコーダ] → 画像特徴
↓
[プロジェクタ] → 視覚トークン
↓
テキスト → [LLM] ← 視覚トークン + テキストトークン
↓
出力テキスト
4.2 接続方法
| 方法 |
説明 |
例 |
| Linear Projection |
単純な線形変換 |
LLaVA |
| MLP |
多層パーセプトロン |
LLaVA-1.5 |
| Q-Former |
学習可能クエリ |
BLIP-2 |
| Perceiver Resampler |
固定長出力 |
Flamingo |
4.3 訓練戦略
- Stage 1: Alignment
- 画像-キャプションペアで事前学習
- プロジェクタのみ or 全体を訓練
- Stage 2: Instruction Tuning
- Visual Instruction Dataで微調整
- 会話形式のQA、詳細記述など
5. LLaVA系モデル
5.1 LLaVA
LLaVA(Large Language and Vision Assistant)(Liu et al. 2023):
- CLIP ViT-L/14 + Vicuna(LLaMA微調整)
- GPT-4で生成したInstruction Data
- シンプルで効果的なアーキテクチャ
5.2 LLaVA-1.5
改良版:
- MLPプロジェクタ(2層)
- より高解像度(336×336)
- 追加の学術データセット
5.3 LLaVA-NeXT / LLaVA-OneVision
- AnyRes:任意解像度対応
- 動画対応:フレームを画像として処理
- オープンソースVLMの代表格
5.4 その他のオープンVLM
| モデル |
特徴 |
| InternVL |
大規模、高性能 |
| Qwen-VL |
Alibaba、多言語 |
| CogVLM |
視覚専門家モジュール |
| Idefics2 |
Hugging Face、オープン |
6. 商用VLM
6.1 GPT-4V / GPT-4o
OpenAI(2023-2024):
- 最高クラスの視覚理解能力
- GPT-4oはネイティブマルチモーダル
- テキスト・画像・音声の統合処理
6.2 Claude 3 / 3.5
Anthropic(2024):
- 画像理解能力を持つ全モデル
- 文書・図表の詳細な解析に強い
- Computer Use(画面操作)能力
6.3 Gemini
Google(2023-2024):
- Gemini 1.5 Pro:超長文脈(1M+トークン)
- ネイティブマルチモーダル設計
- 動画理解にも対応
6.4 性能比較(概算)
| モデル |
MMMU |
MathVista |
| GPT-4o |
〜69% |
〜63% |
| Claude 3.5 Sonnet |
〜68% |
〜61% |
| Gemini 1.5 Pro |
〜62% |
〜58% |
| LLaVA-OneVision |
〜56% |
〜52% |
7. 応用
7.1 文書理解
- PDF・スキャン文書の解析
- 表・グラフの理解
- 手書き文字認識
- 請求書・領収書の処理
7.2 視覚的質問応答
- 画像内容についての自然言語QA
- 数学・科学問題の図を含む解答
- チャート・グラフの分析
7.3 クリエイティブ応用
- 画像キャプション生成
- 画像に基づくストーリー生成
- デザインフィードバック
7.4 実世界応用
- 自律運転の状況理解
- ロボットの視覚-言語ナビゲーション
- 医療画像の解析補助
- アクセシビリティ(視覚障害者支援)
8. 参考文献
基盤技術
- Radford et al. (2021). "Learning Transferable Visual Models From Natural Language Supervision"
ICML(CLIP)
- Dosovitskiy et al. (2021). "An Image is Worth 16x16 Words" ICLR(ViT)
VLM
- Liu et al. (2023). "Visual Instruction Tuning" NeurIPS(LLaVA)
- Li et al. (2023). "BLIP-2: Bootstrapping Language-Image Pre-training" ICML
- Alayrac et al. (2022). "Flamingo: a Visual Language Model for Few-Shot Learning" NeurIPS
商用モデル
- OpenAI (2023). "GPT-4V(ision) System Card"
- Google (2023). "Gemini: A Family of Highly Capable Multimodal Models"