モデル比較
モデル比較
主要LLMの特徴と性能比較。GPT、Claude、Gemini、Llama、Mistral、DeepSeek。モデル選択の指針。
最終更新:2025年11月
1. LLMランドスケープ
1.1 クローズド vs オープン
| 種類 | 特徴 | 代表例 |
|---|---|---|
| クローズド | API提供のみ、重みは非公開 | GPT-4、Claude、Gemini |
| オープンウェイト | 重みは公開、訓練詳細は一部非公開 | Llama、Mistral |
| オープンソース | 重み・データ・コードをすべて公開 | OLMo、Pythia |
1.2 モデルファミリー概観(2025年時点)
| 組織 | 主要モデル | 特徴 |
|---|---|---|
| OpenAI | GPT-4o, o1/o3 | マルチモーダル、推論特化 |
| Anthropic | Claude 3.5/4 | 長文脈、安全性 |
| Gemini 1.5/2 | 超長文脈、マルチモーダル | |
| Meta | Llama 3.x | オープン、多言語 |
| Mistral | Mistral Large, Mixtral | MoE、効率性 |
| DeepSeek | DeepSeek-V3 | コスト効率、MoE |
2. OpenAI(GPT)
2.1 GPTシリーズ
| モデル | 公開 | 特徴 |
|---|---|---|
| GPT-3.5 Turbo | 2022 | ChatGPTの基盤、低コスト |
| GPT-4 | 2023/3 | 大幅な性能向上、画像理解 |
| GPT-4 Turbo | 2023/11 | 128Kコンテキスト、低コスト |
| GPT-4o | 2024/5 | ネイティブマルチモーダル、高速 |
| GPT-4o mini | 2024/7 | 軽量版、GPT-3.5 Turbo後継 |
2.2 o1/o3シリーズ(推論特化)
- o1-preview / o1(2024/9):推論時に「思考」
- o3(2024/12):ARC-AGIで87.5%達成
- 複雑な推論、数学、コーディングに強い
- 推論時間と性能のトレードオフ
2.3 OpenAIの特徴
- 最大規模の研究開発投資
- 広範なエコシステム(API、ChatGPT、Plugins)
- 継続的なアップデート
- エンタープライズ向け機能
3. Anthropic(Claude)
3.1 Claudeシリーズ
| モデル | 公開 | 特徴 |
|---|---|---|
| Claude 2 | 2023/7 | 100Kコンテキスト |
| Claude 3 Haiku/Sonnet/Opus | 2024/3 | 3サイズ、200Kコンテキスト |
| Claude 3.5 Sonnet | 2024/6 | Opus級性能、Sonnet価格 |
| Claude 3.5 Haiku | 2024/10 | 高速・低コスト |
3.2 Claudeの特徴
- 長文脈:200Kトークン(約15万語)
- Constitutional AI:原則ベースの安全性
- コーディング:SWE-benchトップクラス
- 文章品質:自然な日本語生成
- Computer Use:画面操作能力(ベータ)
3.3 モデル選択
- Haiku:高速処理、コスト重視
- Sonnet:バランス型、最も汎用的
- Opus:最高性能、複雑なタスク
4. Google(Gemini)
4.1 Geminiシリーズ
| モデル | 公開 | 特徴 |
|---|---|---|
| Gemini 1.0 | 2023/12 | Ultra/Pro/Nano |
| Gemini 1.5 Pro | 2024/2 | 1Mトークンコンテキスト |
| Gemini 1.5 Flash | 2024/5 | 高速・低コスト版 |
| Gemini 2.0 Flash | 2024/12 | エージェント向け、マルチモーダル出力 |
4.2 Geminiの特徴
- 超長文脈:1M(将来2M)トークン
- ネイティブマルチモーダル:テキスト・画像・音声・動画
- Google統合:Search、Workspace連携
- TPU最適化:効率的な推論
4.3 用途別選択
- Flash:大量処理、コスト重視
- Pro:複雑なタスク、長文書処理
- Ultra:最高性能(限定提供)
5. Meta(Llama)
5.1 Llamaシリーズ
| モデル | 公開 | サイズ |
|---|---|---|
| Llama 2 | 2023/7 | 7B, 13B, 70B |
| Llama 3 | 2024/4 | 8B, 70B |
| Llama 3.1 | 2024/7 | 8B, 70B, 405B |
| Llama 3.2 | 2024/9 | 1B, 3B(軽量)、11B, 90B(マルチモーダル) |
| Llama 3.3 | 2024/12 | 70B(405B級性能) |
5.2 Llamaの特徴
- オープンウェイト:商用利用可能
- ローカル実行:自社インフラで運用可能
- 活発なコミュニティ:ファインチューニング、量子化
- 多言語対応:8言語以上
5.3 派生モデル
- Code Llama:コード特化
- Llama Guard:安全性フィルタ
- コミュニティ版:Japanese-Llama等
6. その他の主要モデル
6.1 Mistral
- Mistral 7B:オープン、高効率
- Mixtral 8x7B:MoE、47B総パラメータ・13Bアクティブ
- Mistral Large:クローズド、GPT-4級
- ヨーロッパ発、効率性重視
6.2 DeepSeek
- DeepSeek-V2:MoE、コスト効率
- DeepSeek-V3(2024/12):671B MoE、37Bアクティブ
- DeepSeek-R1:推論特化(o1対抗)
- 中国発、驚異的なコスト効率
- 訓練コスト約560万ドル(GPT-4の1/10以下と推定)
6.3 xAI(Grok)
- Grok-1:314B MoE
- Grok-2:X(Twitter)統合
- リアルタイム情報アクセス
6.4 Cohere(Command)
- エンタープライズ向け
- RAG最適化
- 多言語対応
6.5 日本語特化モデル
- ELYZA:Llama 2ベース日本語
- Japanese StableLM:Stability AI
- PLaMo:Preferred Networks
- Swallow:東工大、Llama 2/3ベース
7. 性能比較
7.1 ベンチマーク比較(2024年後半)
| モデル | MMLU | GSM8K | HumanEval |
|---|---|---|---|
| GPT-4o | 〜88% | 〜95% | 〜90% |
| Claude 3.5 Sonnet | 〜89% | 〜96% | 〜92% |
| Gemini 1.5 Pro | 〜86% | 〜91% | 〜84% |
| Llama 3.1 405B | 〜88% | 〜96% | 〜89% |
| DeepSeek-V3 | 〜88% | 〜92% | 〜86% |
※数値は概算。評価設定により変動。
7.2 Chatbot Arena Elo(2024年末時点)
| 順位 | モデル | Elo(概算) |
|---|---|---|
| 1 | o1 | 〜1350 |
| 2 | Claude 3.5 Sonnet | 〜1270 |
| 3 | GPT-4o | 〜1260 |
| 4 | Gemini 1.5 Pro | 〜1250 |
| 5 | DeepSeek-V3 | 〜1250 |
7.3 コスト比較(概算、2024年末)
| モデル | 入力 ($/1M tokens) | 出力 ($/1M tokens) |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| Claude 3.5 Sonnet | $3.00 | $15.00 |
| Gemini 1.5 Pro | $1.25 | $5.00 |
| GPT-4o mini | $0.15 | $0.60 |
| Claude 3.5 Haiku | $0.80 | $4.00 |
8. モデル選択指針
8.1 用途別推奨
| 用途 | 推奨モデル | 理由 |
|---|---|---|
| 汎用チャット | GPT-4o, Claude 3.5 Sonnet | 総合性能 |
| コーディング | Claude 3.5 Sonnet, o1 | SWE-bench性能 |
| 長文書処理 | Gemini 1.5 Pro, Claude | 長文脈対応 |
| 数学・推論 | o1/o3 | 推論特化 |
| コスト重視 | GPT-4o mini, Gemini Flash | 低価格 |
| ローカル実行 | Llama 3.x, Mistral | オープンウェイト |
| 日本語特化 | Claude, GPT-4o | 日本語品質 |
8.2 選択の考慮点
- 性能:タスク固有の性能要件
- コスト:API料金、推論コスト
- レイテンシ:応答速度要件
- 文脈長:処理する文書の長さ
- プライバシー:データの取り扱い
- 可用性:リージョン、SLA
- 統合性:既存システムとの連携
8.3 トレンドと今後
- 推論時計算の増加(o1/o3モデル)
- マルチモーダル能力の標準化
- エージェント能力の強化
- オープンモデルの性能向上
- コスト効率の改善
- 特定ドメイン特化モデル