テキスト、画像、音声、動画を統合処理するマルチモーダルAI。Vision Transformer、CLIP、Vision-Language Models、拡散モデル、ネイティブマルチモーダルの技術と進化。
最終更新:2025年11月
マルチモーダルAI:複数の入力形式(モダリティ)を処理・生成できるAIシステム。
主要なモダリティ:
伝統的な画像認識の基盤(〜2020年):
CNNの特徴:
ViT(Dosovitskiy et al., 2021):Transformerを画像認識に適用。
アーキテクチャ:
ViTの革新:
CLIP(Contrastive Language-Image Pre-training、OpenAI 2021)
アーキテクチャ:
訓練:
革新的な点:
| モデル | 年 | 特徴 |
|---|---|---|
| CLIP | 2021 | 対照学習、Zero-shot |
| BLIP | 2022 | キャプション生成、VQA |
| Flamingo | 2022 | Few-shot VLM、インターリーブ |
| BLIP-2 | 2023 | Q-Former、効率的統合 |
| LLaVA | 2023 | Visual Instruction Tuning |
| GPT-4V | 2023 | 高度なVQA、推論 |
LLaVA(Large Language and Vision Assistant、Liu et al. 2023)
アーキテクチャ:
Visual Instruction Tuning:
GPT-4V(Vision):GPT-4の画像入力拡張。
能力:
GPT-4o:ネイティブマルチモーダル統合。
基本原理:
DDPM(Ho et al., 2020):
Latent Diffusion Models(Rombach et al., 2022):
Stable Diffusion:
DALL-E 2(OpenAI, 2022):
DALL-E 3(OpenAI, 2023):
テキスト条件付け生成の重要技術:
Whisper(OpenAI, 2022):
特徴:
AudioLM(Google, 2022):
音声統合LLM:
Sora(OpenAI, 2024):
その他の動画生成:
従来のアプローチ(〜2023年):
ネイティブアプローチ(2024年〜):
特徴:
特徴:
すべてのモダリティをトークンとして扱う:
統一されたトークン空間により、Transformerで一貫した処理が可能に。
マルチモーダル統合がAGI実現に不可欠な理由: