1. 概観:2024-2025年のLLM
1.1 主要プレイヤー
2024-2025年のLLM市場は以下の組織が主導:
- OpenAI:GPT-4、GPT-4o、o1/o3シリーズ
- Anthropic:Claude 3/3.5/4シリーズ
- Google DeepMind:Gemini 1.5/2.0シリーズ
- Meta:Llama 3/3.1/3.2シリーズ(オープン)
- Mistral AI:Mistral/Mixtralシリーズ(オープン)
- DeepSeek:DeepSeek-V2/V3(オープン、中国)
- xAI:Grok-2
1.2 技術的トレンド
2024-2025年の主要な技術的進化:
- MoE(Mixture of Experts):効率的なスケーリング
- 長文脈:100K〜2Mトークン
- マルチモーダル:ネイティブな画像・音声処理
- 推論特化:o1/o3型の思考モデル
- エージェント能力:ツール使用、コンピュータ操作
1.3 オープン vs クローズド
- クローズド:GPT-4、Claude、Gemini(API経由のみ)
- オープンウェイト:Llama、Mistral、DeepSeek(重みを公開)
- 完全オープン:OLMo、Pythia(訓練データ・コードも公開)
2. OpenAI GPTシリーズ
2.1 GPT-4 / GPT-4 Turbo
リリース:2023年3月(GPT-4)、2023年11月(Turbo)
| 特性 |
GPT-4 |
GPT-4 Turbo |
| パラメータ数 |
推定1.76T(MoE、8×220B) |
| コンテキスト長 |
8K / 32K |
128K |
| 知識カットオフ |
2021年9月 |
2023年12月 |
| マルチモーダル |
Vision(入力のみ) |
Vision + DALL-E |
2.2 GPT-4o
リリース:2024年5月
特徴:
- ネイティブマルチモーダル:テキスト、画像、音声を統合処理
- リアルタイム音声:低レイテンシの音声対話
- 高速推論:GPT-4 Turboの2倍の速度
- コスト効率:GPT-4 Turboの半額
2.3 o1 / o3シリーズ(推論特化)
リリース:2024年9月(o1-preview)、2024年12月(o1、o3)
革新的アプローチ:
- Test-Time Compute:推論時に「思考」時間を増加
- Chain-of-Thought強化:内部的な推論ステップの増幅
- 数学・コーディング:AIME、Codeforcesで人間専門家レベル
o3の成果:
- ARC-AGI:87.5%(高計算設定)
- GPQA Diamond:87.7%
- Codeforces:2727 Elo(99.95パーセンタイル)
2.4 GPTの技術的特徴
- アーキテクチャ:Decoder-only Transformer(MoE推定)
- 訓練:RLHF重視、人間フィードバック大量収集
- 特徴:汎用性、指示追従、クリエイティブタスク
3. Anthropic Claude
3.1 Claude 3シリーズ
リリース:2024年3月
| モデル |
特徴 |
コンテキスト |
| Claude 3 Opus |
最高性能、複雑なタスク |
200K |
| Claude 3 Sonnet |
バランス型、コスト効率 |
200K |
| Claude 3 Haiku |
高速、低コスト |
200K |
3.2 Claude 3.5 Sonnet
リリース:2024年6月(初版)、2024年10月(改良版)
特徴:
- 性能:Claude 3 Opusを超える性能(Sonnetの価格で)
- コーディング:HumanEvalで業界トップクラス
- Computer Use:画面操作によるエージェント機能
- Artifacts:コード・文書の対話的生成
3.3 Claude 4シリーズ
リリース:2025年
- Claude Opus 4:複雑な長時間タスク、エージェント向け
- Claude Sonnet 4:コーディング特化、改良版
3.4 Claudeの技術的特徴
- Constitutional AI:原則ベースの自己改善訓練
- RLHF + RLAIF:人間とAIのフィードバック併用
- 長文脈処理:200Kトークンの実用的処理
- 安全性重視:有害出力の抑制、誠実性
- Character:一貫した人格特性の維持
3.5 Claudeのベンチマーク
Claude 3.5 Sonnet(2024年10月版):
- MMLU:88.7%
- HumanEval:92.0%
- GPQA Diamond:65.0%
- MATH:78.3%
4. Google Gemini
4.1 Gemini 1.5
リリース:2024年2月
| モデル |
特徴 |
コンテキスト |
| Gemini 1.5 Pro |
高性能、長文脈 |
1M → 2M |
| Gemini 1.5 Flash |
高速、低コスト |
1M |
4.2 Gemini 2.0
リリース:2024年12月
特徴:
- ネイティブマルチモーダル出力:画像・音声の生成
- エージェント機能:Project Astra統合
- Gemini 2.0 Flash:高速・高性能の両立
- Thinking Mode:推論特化モード
4.3 Geminiの技術的特徴
- MoE アーキテクチャ:効率的なスケーリング
- 超長文脈:2Mトークン(業界最長)
- ネイティブマルチモーダル:訓練時からの統合
- Google統合:Search、Workspace連携
4.4 コンテキスト長の革新
Gemini 1.5 Proの長文脈能力:
- 1Mトークン:約750,000語、1,500ページ相当
- 2Mトークン:書籍複数冊、映画全編
- Needle-in-a-Haystack:99%以上の精度
6. その他の主要モデル
6.1 Mistral AI
主要モデル:
- Mistral 7B(2023年):小規模ながら高性能
- Mixtral 8x7B(2023年):MoE、47Bパラメータ(12B活性)
- Mixtral 8x22B(2024年):MoE、141Bパラメータ
- Mistral Large 2(2024年):123B、クローズド
特徴:効率重視、MoE先駆者、欧州発
6.2 DeepSeek(中国)
主要モデル:
- DeepSeek-V2(2024年):236B MoE(21B活性)、MLA導入
- DeepSeek-V3(2024年):671B MoE(37B活性)
- DeepSeek-R1(2025年):推論特化
技術的特徴:
- MLA(Multi-head Latent Attention):KVキャッシュ圧縮
- DeepSeekMoE:細粒度Expert + 共有Expert
- コスト効率:$5.5M(557万ドル)での訓練(DeepSeek-V3)
6.3 xAI Grok
- Grok-1(2023年):314B MoE
- Grok-2(2024年):X/Twitter統合
特徴:リアルタイム情報、ユーモア許容
6.4 Cohere
- Command R / R+:RAG特化
- Embed:埋め込み特化
特徴:エンタープライズ向け、検索統合
6.5 オープン研究モデル
- OLMo(AI2):完全オープン(データ・コード含む)
- Falcon(TII):オープンウェイト
- Qwen(Alibaba):多言語対応
7. 総合比較
7.1 スペック比較(2024-2025年主要モデル)
| モデル |
パラメータ |
コンテキスト |
MoE |
公開 |
| GPT-4o |
〜1.76T? |
128K |
推定Yes |
クローズド |
| Claude 3.5 Sonnet |
非公開 |
200K |
非公開 |
クローズド |
| Gemini 1.5 Pro |
非公開 |
2M |
Yes |
クローズド |
| Llama 3.1 405B |
405B |
128K |
No(Dense) |
オープン |
| Mixtral 8x22B |
141B(39B活性) |
64K |
Yes |
オープン |
| DeepSeek-V3 |
671B(37B活性) |
128K |
Yes |
オープン |
7.2 ベンチマーク比較
| ベンチマーク |
GPT-4o |
Claude 3.5 |
Gemini 1.5 |
Llama 405B |
| MMLU |
88.7% |
88.7% |
86.5% |
88.6% |
| HumanEval |
90.2% |
92.0% |
84.1% |
89.0% |
| MATH |
76.6% |
78.3% |
67.7% |
73.8% |
| GPQA |
53.6% |
65.0% |
46.2% |
51.1% |
※数値は公式発表・リークに基づく推定値。評価条件により変動。
7.3 特徴的な強み
- GPT-4o:汎用性、マルチモーダル統合、エコシステム
- Claude:長文脈、コーディング、安全性、誠実性
- Gemini:超長文脈(2M)、Google統合、マルチモーダル
- Llama:オープン、カスタマイズ性、コミュニティ
- Mistral:効率性、MoE技術、欧州データ主権
- DeepSeek:コスト効率、アーキテクチャ革新
7.4 選択の指針
| 用途 |
推奨モデル |
| 汎用チャットボット |
GPT-4o、Claude 3.5 Sonnet |
| コード生成 |
Claude 3.5 Sonnet、GPT-4o |
| 長文書分析 |
Gemini 1.5 Pro、Claude |
| 数学・推論 |
o1/o3、Claude |
| オンプレミス/カスタム |
Llama 3.1、Mistral |
| 低コスト大規模処理 |
DeepSeek-V3、Llama |
8. 参考文献
技術レポート
- OpenAI (2023). "GPT-4 Technical Report"
- Anthropic (2024). "The Claude 3 Model Family"
- Google DeepMind (2024). "Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context"
- Meta (2024). "The Llama 3 Herd of Models"
- Mistral AI (2024). "Mixtral of Experts"
- DeepSeek-AI (2024). "DeepSeek-V3 Technical Report"
ベンチマーク