Vision-Language Models - AI入門 - はとはとプロジェクト

※画像は生成AIによるイメージです。

1. Vision-Languageの概要

1.1 マルチモーダルAIとは

複数のモダリティ（データ形式）を統合的に処理するAI。

モダリティ：テキスト、画像、音声、動画など
Vision-Language：画像とテキストの統合
人間の知覚に近い統合的理解を目指す

1.2 Vision-Languageタスク

タスク	入力	出力
画像キャプション生成	画像	説明テキスト
VQA（Visual QA）	画像 + 質問	回答
画像検索	テキストクエリ	関連画像
Visual Grounding	画像 + 参照表現	バウンディングボックス
画像生成	テキスト	画像

1.3 VLMの進化

初期：CNN + RNN（タスク特化）
CLIP時代：対照学習による汎用表現
LLM統合：LLMを言語デコーダとして活用
ネイティブ：最初からマルチモーダルで訓練

2. CLIP

2.1 概要

CLIP（Contrastive Language-Image Pre-training）（Radford et al. 2021）：

画像とテキストの対照学習
4億の画像-テキストペアで訓練
Zero-shotで多様なタスクに対応

2.2 アーキテクチャ

Image Encoder：ResNet or ViT
Text Encoder：Transformer
両者を同じ埋め込み空間にマッピング

2.3 対照学習

バッチ内の正しい画像-テキストペアを識別：

バッチ: N個の (画像, テキスト) ペア

1. 各画像を Image Encoder で埋め込み → I_1, ..., I_N
2. 各テキストを Text Encoder で埋め込み → T_1, ..., T_N
3. N×N の類似度行列を計算
4. 対角成分（正しいペア）のスコアを最大化
   非対角成分（間違ったペア）のスコアを最小化

2.4 Zero-shot分類

画像分類の例：
1. クラスラベルをテキストに変換
   "a photo of a cat", "a photo of a dog", ...
2. 各テキストの埋め込みを計算
3. 入力画像の埋め込みを計算
4. 最も類似度の高いテキストのクラスを予測

2.5 CLIPの影響

画像生成モデルの条件付け（DALL-E、Stable Diffusion）
VLMの画像エンコーダとして広く使用
Zero-shot転移学習の可能性を実証

3. 画像エンコーダ

3.1 Vision Transformer (ViT)

Dosovitskiy et al. (2021)：画像をパッチに分割してTransformerで処理。

画像を16×16や14×14のパッチに分割
各パッチを線形投影してトークン化
[CLS]トークンで画像全体を表現
CNNを超える性能（十分なデータで）

3.2 主要な画像エンコーダ

モデル	特徴	使用例
ViT-L/14	CLIP標準	LLaVA
SigLIP	Sigmoid損失	PaliGemma
EVA-CLIP	大規模・高性能	InternVL
DINOv2	自己教師あり	-

3.3 解像度と効率

高解像度 → パッチ数増加 → 計算コスト増
AnyRes：複数解像度で処理して統合
Dynamic Resolution：画像に応じて解像度調整

4. VLMアーキテクチャ

4.1 基本構成

画像 → [画像エンコーダ] → 画像特徴
                    ↓
              [プロジェクタ] → 視覚トークン
                    ↓
テキスト → [LLM] ← 視覚トークン + テキストトークン
                    ↓
                 出力テキスト

4.2 接続方法

方法	説明	例
Linear Projection	単純な線形変換	LLaVA
MLP	多層パーセプトロン	LLaVA-1.5
Q-Former	学習可能クエリ	BLIP-2
Perceiver Resampler	固定長出力	Flamingo

4.3 訓練戦略

Stage 1: Alignment
- 画像-キャプションペアで事前学習
- プロジェクタのみ or 全体を訓練
Stage 2: Instruction Tuning
- Visual Instruction Dataで微調整
- 会話形式のQA、詳細記述など

5. LLaVA系モデル

5.1 LLaVA

LLaVA（Large Language and Vision Assistant）（Liu et al. 2023）：

CLIP ViT-L/14 + Vicuna（LLaMA微調整）
GPT-4で生成したInstruction Data
シンプルで効果的なアーキテクチャ

5.2 LLaVA-1.5

改良版：

MLPプロジェクタ（2層）
より高解像度（336×336）
追加の学術データセット

5.3 LLaVA-NeXT / LLaVA-OneVision

AnyRes：任意解像度対応
動画対応：フレームを画像として処理
オープンソースVLMの代表格

5.4 その他のオープンVLM

モデル	特徴
InternVL	大規模、高性能
Qwen-VL	Alibaba、多言語
CogVLM	視覚専門家モジュール
Idefics2	Hugging Face、オープン

6. 商用VLM

6.1 GPT-4V / GPT-4o

OpenAI（2023-2024）：

最高クラスの視覚理解能力
GPT-4oはネイティブマルチモーダル
テキスト・画像・音声の統合処理

6.2 Claude 3 / 3.5

Anthropic（2024）：

画像理解能力を持つ全モデル
文書・図表の詳細な解析に強い
Computer Use（画面操作）能力

6.3 Gemini

Google（2023-2024）：

Gemini 1.5 Pro：超長文脈（1M+トークン）
ネイティブマルチモーダル設計
動画理解にも対応

6.4 性能比較（概算）

モデル	MMMU	MathVista
GPT-4o	〜69%	〜63%
Claude 3.5 Sonnet	〜68%	〜61%
Gemini 1.5 Pro	〜62%	〜58%
LLaVA-OneVision	〜56%	〜52%

7. 応用

7.1 文書理解

PDF・スキャン文書の解析
表・グラフの理解
手書き文字認識
請求書・領収書の処理

7.2 視覚的質問応答

画像内容についての自然言語QA
数学・科学問題の図を含む解答
チャート・グラフの分析

7.3 クリエイティブ応用

画像キャプション生成
画像に基づくストーリー生成
デザインフィードバック

7.4 実世界応用

自律運転の状況理解
ロボットの視覚-言語ナビゲーション
医療画像の解析補助
アクセシビリティ（視覚障害者支援）

8. 参考文献

基盤技術

Radford et al. (2021). "Learning Transferable Visual Models From Natural Language Supervision" ICML（CLIP）
Dosovitskiy et al. (2021). "An Image is Worth 16x16 Words" ICLR（ViT）

VLM

Liu et al. (2023). "Visual Instruction Tuning" NeurIPS（LLaVA）
Li et al. (2023). "BLIP-2: Bootstrapping Language-Image Pre-training" ICML
Alayrac et al. (2022). "Flamingo: a Visual Language Model for Few-Shot Learning" NeurIPS

商用モデル

OpenAI (2023). "GPT-4V(ision) System Card"
Google (2023). "Gemini: A Family of Highly Capable Multimodal Models"