主要モデル比較
主要モデル比較
GPT、Claude、Gemini、Llama、Mistral等の主要LLMの技術的特徴を比較。アーキテクチャ、パラメータ数、コンテキスト長、ベンチマーク性能、特徴的技術。
最終更新:2025年11月
1. 概観:2024-2025年のLLM
1.1 主要プレイヤー
2024-2025年のLLM市場は以下の組織が主導:
- OpenAI:GPT-4、GPT-4o、o1/o3シリーズ
- Anthropic:Claude 3/3.5/4シリーズ
- Google DeepMind:Gemini 1.5/2.0シリーズ
- Meta:Llama 3/3.1/3.2シリーズ(オープン)
- Mistral AI:Mistral/Mixtralシリーズ(オープン)
- DeepSeek:DeepSeek-V2/V3(オープン、中国)
- xAI:Grok-2
1.2 技術的トレンド
2024-2025年の主要な技術的進化:
- MoE(Mixture of Experts):効率的なスケーリング
- 長文脈:100K〜2Mトークン
- マルチモーダル:ネイティブな画像・音声処理
- 推論特化:o1/o3型の思考モデル
- エージェント能力:ツール使用、コンピュータ操作
1.3 オープン vs クローズド
- クローズド:GPT-4、Claude、Gemini(API経由のみ)
- オープンウェイト:Llama、Mistral、DeepSeek(重みを公開)
- 完全オープン:OLMo、Pythia(訓練データ・コードも公開)
2. OpenAI GPTシリーズ
2.1 GPT-4 / GPT-4 Turbo
リリース:2023年3月(GPT-4)、2023年11月(Turbo)
| 特性 | GPT-4 | GPT-4 Turbo |
|---|---|---|
| パラメータ数 | 推定1.76T(MoE、8×220B) | |
| コンテキスト長 | 8K / 32K | 128K |
| 知識カットオフ | 2021年9月 | 2023年12月 |
| マルチモーダル | Vision(入力のみ) | Vision + DALL-E |
2.2 GPT-4o
リリース:2024年5月
特徴:
- ネイティブマルチモーダル:テキスト、画像、音声を統合処理
- リアルタイム音声:低レイテンシの音声対話
- 高速推論:GPT-4 Turboの2倍の速度
- コスト効率:GPT-4 Turboの半額
2.3 o1 / o3シリーズ(推論特化)
リリース:2024年9月(o1-preview)、2024年12月(o1、o3)
革新的アプローチ:
- Test-Time Compute:推論時に「思考」時間を増加
- Chain-of-Thought強化:内部的な推論ステップの増幅
- 数学・コーディング:AIME、Codeforcesで人間専門家レベル
o3の成果:
- ARC-AGI:87.5%(高計算設定)
- GPQA Diamond:87.7%
- Codeforces:2727 Elo(99.95パーセンタイル)
2.4 GPTの技術的特徴
- アーキテクチャ:Decoder-only Transformer(MoE推定)
- 訓練:RLHF重視、人間フィードバック大量収集
- 特徴:汎用性、指示追従、クリエイティブタスク
3. Anthropic Claude
3.1 Claude 3シリーズ
リリース:2024年3月
| モデル | 特徴 | コンテキスト |
|---|---|---|
| Claude 3 Opus | 最高性能、複雑なタスク | 200K |
| Claude 3 Sonnet | バランス型、コスト効率 | 200K |
| Claude 3 Haiku | 高速、低コスト | 200K |
3.2 Claude 3.5 Sonnet
リリース:2024年6月(初版)、2024年10月(改良版)
特徴:
- 性能:Claude 3 Opusを超える性能(Sonnetの価格で)
- コーディング:HumanEvalで業界トップクラス
- Computer Use:画面操作によるエージェント機能
- Artifacts:コード・文書の対話的生成
3.3 Claude 4シリーズ
リリース:2025年
- Claude Opus 4:複雑な長時間タスク、エージェント向け
- Claude Sonnet 4:コーディング特化、改良版
3.4 Claudeの技術的特徴
- Constitutional AI:原則ベースの自己改善訓練
- RLHF + RLAIF:人間とAIのフィードバック併用
- 長文脈処理:200Kトークンの実用的処理
- 安全性重視:有害出力の抑制、誠実性
- Character:一貫した人格特性の維持
3.5 Claudeのベンチマーク
Claude 3.5 Sonnet(2024年10月版):
- MMLU:88.7%
- HumanEval:92.0%
- GPQA Diamond:65.0%
- MATH:78.3%
4. Google Gemini
4.1 Gemini 1.5
リリース:2024年2月
| モデル | 特徴 | コンテキスト |
|---|---|---|
| Gemini 1.5 Pro | 高性能、長文脈 | 1M → 2M |
| Gemini 1.5 Flash | 高速、低コスト | 1M |
4.2 Gemini 2.0
リリース:2024年12月
特徴:
- ネイティブマルチモーダル出力:画像・音声の生成
- エージェント機能:Project Astra統合
- Gemini 2.0 Flash:高速・高性能の両立
- Thinking Mode:推論特化モード
4.3 Geminiの技術的特徴
- MoE アーキテクチャ:効率的なスケーリング
- 超長文脈:2Mトークン(業界最長)
- ネイティブマルチモーダル:訓練時からの統合
- Google統合:Search、Workspace連携
4.4 コンテキスト長の革新
Gemini 1.5 Proの長文脈能力:
- 1Mトークン:約750,000語、1,500ページ相当
- 2Mトークン:書籍複数冊、映画全編
- Needle-in-a-Haystack:99%以上の精度
5. Meta Llama
5.1 Llama 3 / 3.1
リリース:2024年4月(Llama 3)、2024年7月(3.1)
| モデル | パラメータ | コンテキスト | 訓練データ |
|---|---|---|---|
| Llama 3.1 8B | 8B | 128K | 15T+ tokens |
| Llama 3.1 70B | 70B | 128K | 15T+ tokens |
| Llama 3.1 405B | 405B | 128K | 15T+ tokens |
5.2 Llama 3.2
リリース:2024年9月
新機能:
- マルチモーダル:11B/90B Vision対応
- 軽量モデル:1B/3B(エッジデバイス向け)
- オンデバイス:スマートフォン動作可能
5.3 Llamaの技術的特徴
- オープンウェイト:商用利用可能なライセンス
- 標準Transformer:MoEではなくDenseモデル
- 大規模訓練:15T+トークン(GPT-3の50倍)
- RoPE:回転位置エンコーディング
- GQA:Grouped Query Attention
5.4 Llama 3.1 405Bの性能
オープンモデル最大・最高性能:
- MMLU:88.6%(GPT-4に匹敵)
- HumanEval:89.0%
- GSM8K:96.8%
- MATH:73.8%
6. その他の主要モデル
6.1 Mistral AI
主要モデル:
- Mistral 7B(2023年):小規模ながら高性能
- Mixtral 8x7B(2023年):MoE、47Bパラメータ(12B活性)
- Mixtral 8x22B(2024年):MoE、141Bパラメータ
- Mistral Large 2(2024年):123B、クローズド
特徴:効率重視、MoE先駆者、欧州発
6.2 DeepSeek(中国)
主要モデル:
- DeepSeek-V2(2024年):236B MoE(21B活性)、MLA導入
- DeepSeek-V3(2024年):671B MoE(37B活性)
- DeepSeek-R1(2025年):推論特化
技術的特徴:
- MLA(Multi-head Latent Attention):KVキャッシュ圧縮
- DeepSeekMoE:細粒度Expert + 共有Expert
- コスト効率:$5.5M(557万ドル)での訓練(DeepSeek-V3)
6.3 xAI Grok
- Grok-1(2023年):314B MoE
- Grok-2(2024年):X/Twitter統合
特徴:リアルタイム情報、ユーモア許容
6.4 Cohere
- Command R / R+:RAG特化
- Embed:埋め込み特化
特徴:エンタープライズ向け、検索統合
6.5 オープン研究モデル
- OLMo(AI2):完全オープン(データ・コード含む)
- Falcon(TII):オープンウェイト
- Qwen(Alibaba):多言語対応
7. 総合比較
7.1 スペック比較(2024-2025年主要モデル)
| モデル | パラメータ | コンテキスト | MoE | 公開 |
|---|---|---|---|---|
| GPT-4o | 〜1.76T? | 128K | 推定Yes | クローズド |
| Claude 3.5 Sonnet | 非公開 | 200K | 非公開 | クローズド |
| Gemini 1.5 Pro | 非公開 | 2M | Yes | クローズド |
| Llama 3.1 405B | 405B | 128K | No(Dense) | オープン |
| Mixtral 8x22B | 141B(39B活性) | 64K | Yes | オープン |
| DeepSeek-V3 | 671B(37B活性) | 128K | Yes | オープン |
7.2 ベンチマーク比較
| ベンチマーク | GPT-4o | Claude 3.5 | Gemini 1.5 | Llama 405B |
|---|---|---|---|---|
| MMLU | 88.7% | 88.7% | 86.5% | 88.6% |
| HumanEval | 90.2% | 92.0% | 84.1% | 89.0% |
| MATH | 76.6% | 78.3% | 67.7% | 73.8% |
| GPQA | 53.6% | 65.0% | 46.2% | 51.1% |
※数値は公式発表・リークに基づく推定値。評価条件により変動。
7.3 特徴的な強み
- GPT-4o:汎用性、マルチモーダル統合、エコシステム
- Claude:長文脈、コーディング、安全性、誠実性
- Gemini:超長文脈(2M)、Google統合、マルチモーダル
- Llama:オープン、カスタマイズ性、コミュニティ
- Mistral:効率性、MoE技術、欧州データ主権
- DeepSeek:コスト効率、アーキテクチャ革新
7.4 選択の指針
| 用途 | 推奨モデル |
|---|---|
| 汎用チャットボット | GPT-4o、Claude 3.5 Sonnet |
| コード生成 | Claude 3.5 Sonnet、GPT-4o |
| 長文書分析 | Gemini 1.5 Pro、Claude |
| 数学・推論 | o1/o3、Claude |
| オンプレミス/カスタム | Llama 3.1、Mistral |
| 低コスト大規模処理 | DeepSeek-V3、Llama |
8. 参考文献
技術レポート
- OpenAI (2023). "GPT-4 Technical Report"
- Anthropic (2024). "The Claude 3 Model Family"
- Google DeepMind (2024). "Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context"
- Meta (2024). "The Llama 3 Herd of Models"
- Mistral AI (2024). "Mixtral of Experts"
- DeepSeek-AI (2024). "DeepSeek-V3 Technical Report"
ベンチマーク
- LMSYS Chatbot Arena:https://chat.lmsys.org/
- Open LLM Leaderboard:Hugging Face