Vision-Language Models

画像とテキストを統合的に理解・生成するモデル。CLIP、GPT-4V、LLaVA、Geminiの技術と応用。

最終更新:2025年11月

マルチモーダル・生成モデル

※画像は生成AIによるイメージです。

1. Vision-Languageの概要

1.1 マルチモーダルAIとは

複数のモダリティ(データ形式)を統合的に処理するAI。

  • モダリティ:テキスト、画像、音声、動画など
  • Vision-Language:画像とテキストの統合
  • 人間の知覚に近い統合的理解を目指す

1.2 Vision-Languageタスク

タスク 入力 出力
画像キャプション生成 画像 説明テキスト
VQA(Visual QA) 画像 + 質問 回答
画像検索 テキストクエリ 関連画像
Visual Grounding 画像 + 参照表現 バウンディングボックス
画像生成 テキスト 画像

1.3 VLMの進化

  • 初期:CNN + RNN(タスク特化)
  • CLIP時代:対照学習による汎用表現
  • LLM統合:LLMを言語デコーダとして活用
  • ネイティブ:最初からマルチモーダルで訓練

2. CLIP

2.1 概要

CLIP(Contrastive Language-Image Pre-training)(Radford et al. 2021):

  • 画像とテキストの対照学習
  • 4億の画像-テキストペアで訓練
  • Zero-shotで多様なタスクに対応

2.2 アーキテクチャ

  • Image Encoder:ResNet or ViT
  • Text Encoder:Transformer
  • 両者を同じ埋め込み空間にマッピング

2.3 対照学習

バッチ内の正しい画像-テキストペアを識別:

バッチ: N個の (画像, テキスト) ペア

1. 各画像を Image Encoder で埋め込み → I_1, ..., I_N
2. 各テキストを Text Encoder で埋め込み → T_1, ..., T_N
3. N×N の類似度行列を計算
4. 対角成分(正しいペア)のスコアを最大化
   非対角成分(間違ったペア)のスコアを最小化

2.4 Zero-shot分類

画像分類の例:
1. クラスラベルをテキストに変換
   "a photo of a cat", "a photo of a dog", ...
2. 各テキストの埋め込みを計算
3. 入力画像の埋め込みを計算
4. 最も類似度の高いテキストのクラスを予測

2.5 CLIPの影響

  • 画像生成モデルの条件付け(DALL-E、Stable Diffusion)
  • VLMの画像エンコーダとして広く使用
  • Zero-shot転移学習の可能性を実証

3. 画像エンコーダ

3.1 Vision Transformer (ViT)

Dosovitskiy et al. (2021):画像をパッチに分割してTransformerで処理。

  • 画像を16×16や14×14のパッチに分割
  • 各パッチを線形投影してトークン化
  • [CLS]トークンで画像全体を表現
  • CNNを超える性能(十分なデータで)

3.2 主要な画像エンコーダ

モデル 特徴 使用例
ViT-L/14 CLIP標準 LLaVA
SigLIP Sigmoid損失 PaliGemma
EVA-CLIP 大規模・高性能 InternVL
DINOv2 自己教師あり -

3.3 解像度と効率

  • 高解像度 → パッチ数増加 → 計算コスト増
  • AnyRes:複数解像度で処理して統合
  • Dynamic Resolution:画像に応じて解像度調整

4. VLMアーキテクチャ

4.1 基本構成

画像 → [画像エンコーダ] → 画像特徴
                    ↓
              [プロジェクタ] → 視覚トークン
                    ↓
テキスト → [LLM] ← 視覚トークン + テキストトークン
                    ↓
                 出力テキスト

4.2 接続方法

方法 説明
Linear Projection 単純な線形変換 LLaVA
MLP 多層パーセプトロン LLaVA-1.5
Q-Former 学習可能クエリ BLIP-2
Perceiver Resampler 固定長出力 Flamingo

4.3 訓練戦略

  1. Stage 1: Alignment
    • 画像-キャプションペアで事前学習
    • プロジェクタのみ or 全体を訓練
  2. Stage 2: Instruction Tuning
    • Visual Instruction Dataで微調整
    • 会話形式のQA、詳細記述など

5. LLaVA系モデル

5.1 LLaVA

LLaVA(Large Language and Vision Assistant)(Liu et al. 2023):

  • CLIP ViT-L/14 + Vicuna(LLaMA微調整)
  • GPT-4で生成したInstruction Data
  • シンプルで効果的なアーキテクチャ

5.2 LLaVA-1.5

改良版:

  • MLPプロジェクタ(2層)
  • より高解像度(336×336)
  • 追加の学術データセット

5.3 LLaVA-NeXT / LLaVA-OneVision

  • AnyRes:任意解像度対応
  • 動画対応:フレームを画像として処理
  • オープンソースVLMの代表格

5.4 その他のオープンVLM

モデル 特徴
InternVL 大規模、高性能
Qwen-VL Alibaba、多言語
CogVLM 視覚専門家モジュール
Idefics2 Hugging Face、オープン

6. 商用VLM

6.1 GPT-4V / GPT-4o

OpenAI(2023-2024):

  • 最高クラスの視覚理解能力
  • GPT-4oはネイティブマルチモーダル
  • テキスト・画像・音声の統合処理

6.2 Claude 3 / 3.5

Anthropic(2024):

  • 画像理解能力を持つ全モデル
  • 文書・図表の詳細な解析に強い
  • Computer Use(画面操作)能力

6.3 Gemini

Google(2023-2024):

  • Gemini 1.5 Pro:超長文脈(1M+トークン)
  • ネイティブマルチモーダル設計
  • 動画理解にも対応

6.4 性能比較(概算)

モデル MMMU MathVista
GPT-4o 〜69% 〜63%
Claude 3.5 Sonnet 〜68% 〜61%
Gemini 1.5 Pro 〜62% 〜58%
LLaVA-OneVision 〜56% 〜52%

7. 応用

7.1 文書理解

  • PDF・スキャン文書の解析
  • 表・グラフの理解
  • 手書き文字認識
  • 請求書・領収書の処理

7.2 視覚的質問応答

  • 画像内容についての自然言語QA
  • 数学・科学問題の図を含む解答
  • チャート・グラフの分析

7.3 クリエイティブ応用

  • 画像キャプション生成
  • 画像に基づくストーリー生成
  • デザインフィードバック

7.4 実世界応用

  • 自律運転の状況理解
  • ロボットの視覚-言語ナビゲーション
  • 医療画像の解析補助
  • アクセシビリティ(視覚障害者支援)

8. 参考文献

基盤技術

  • Radford et al. (2021). "Learning Transferable Visual Models From Natural Language Supervision" ICML(CLIP)
  • Dosovitskiy et al. (2021). "An Image is Worth 16x16 Words" ICLR(ViT)

VLM

  • Liu et al. (2023). "Visual Instruction Tuning" NeurIPS(LLaVA)
  • Li et al. (2023). "BLIP-2: Bootstrapping Language-Image Pre-training" ICML
  • Alayrac et al. (2022). "Flamingo: a Visual Language Model for Few-Shot Learning" NeurIPS

商用モデル

  • OpenAI (2023). "GPT-4V(ision) System Card"
  • Google (2023). "Gemini: A Family of Highly Capable Multimodal Models"