主要モデル比較

GPT、Claude、Gemini、Llama、Mistral等の主要LLMの技術的特徴を比較。アーキテクチャ、パラメータ数、コンテキスト長、ベンチマーク性能、特徴的技術。

最終更新:2025年11月

1. 概観:2024-2025年のLLM

1.1 主要プレイヤー

2024-2025年のLLM市場は以下の組織が主導:

  • OpenAI:GPT-4、GPT-4o、o1/o3シリーズ
  • Anthropic:Claude 3/3.5/4シリーズ
  • Google DeepMind:Gemini 1.5/2.0シリーズ
  • Meta:Llama 3/3.1/3.2シリーズ(オープン)
  • Mistral AI:Mistral/Mixtralシリーズ(オープン)
  • DeepSeek:DeepSeek-V2/V3(オープン、中国)
  • xAI:Grok-2

1.2 技術的トレンド

2024-2025年の主要な技術的進化:

  • MoE(Mixture of Experts):効率的なスケーリング
  • 長文脈:100K〜2Mトークン
  • マルチモーダル:ネイティブな画像・音声処理
  • 推論特化:o1/o3型の思考モデル
  • エージェント能力:ツール使用、コンピュータ操作

1.3 オープン vs クローズド

  • クローズド:GPT-4、Claude、Gemini(API経由のみ)
  • オープンウェイト:Llama、Mistral、DeepSeek(重みを公開)
  • 完全オープン:OLMo、Pythia(訓練データ・コードも公開)

2. OpenAI GPTシリーズ

2.1 GPT-4 / GPT-4 Turbo

リリース:2023年3月(GPT-4)、2023年11月(Turbo)

特性 GPT-4 GPT-4 Turbo
パラメータ数 推定1.76T(MoE、8×220B)
コンテキスト長 8K / 32K 128K
知識カットオフ 2021年9月 2023年12月
マルチモーダル Vision(入力のみ) Vision + DALL-E

2.2 GPT-4o

リリース:2024年5月

特徴:

  • ネイティブマルチモーダル:テキスト、画像、音声を統合処理
  • リアルタイム音声:低レイテンシの音声対話
  • 高速推論:GPT-4 Turboの2倍の速度
  • コスト効率:GPT-4 Turboの半額

2.3 o1 / o3シリーズ(推論特化)

リリース:2024年9月(o1-preview)、2024年12月(o1、o3)

革新的アプローチ:

  • Test-Time Compute:推論時に「思考」時間を増加
  • Chain-of-Thought強化:内部的な推論ステップの増幅
  • 数学・コーディング:AIME、Codeforcesで人間専門家レベル

o3の成果:

  • ARC-AGI:87.5%(高計算設定)
  • GPQA Diamond:87.7%
  • Codeforces:2727 Elo(99.95パーセンタイル)

2.4 GPTの技術的特徴

  • アーキテクチャ:Decoder-only Transformer(MoE推定)
  • 訓練:RLHF重視、人間フィードバック大量収集
  • 特徴:汎用性、指示追従、クリエイティブタスク

3. Anthropic Claude

3.1 Claude 3シリーズ

リリース:2024年3月

モデル 特徴 コンテキスト
Claude 3 Opus 最高性能、複雑なタスク 200K
Claude 3 Sonnet バランス型、コスト効率 200K
Claude 3 Haiku 高速、低コスト 200K

3.2 Claude 3.5 Sonnet

リリース:2024年6月(初版)、2024年10月(改良版)

特徴:

  • 性能:Claude 3 Opusを超える性能(Sonnetの価格で)
  • コーディング:HumanEvalで業界トップクラス
  • Computer Use:画面操作によるエージェント機能
  • Artifacts:コード・文書の対話的生成

3.3 Claude 4シリーズ

リリース:2025年

  • Claude Opus 4:複雑な長時間タスク、エージェント向け
  • Claude Sonnet 4:コーディング特化、改良版

3.4 Claudeの技術的特徴

  • Constitutional AI:原則ベースの自己改善訓練
  • RLHF + RLAIF:人間とAIのフィードバック併用
  • 長文脈処理:200Kトークンの実用的処理
  • 安全性重視:有害出力の抑制、誠実性
  • Character:一貫した人格特性の維持

3.5 Claudeのベンチマーク

Claude 3.5 Sonnet(2024年10月版):

  • MMLU:88.7%
  • HumanEval:92.0%
  • GPQA Diamond:65.0%
  • MATH:78.3%

4. Google Gemini

4.1 Gemini 1.5

リリース:2024年2月

モデル 特徴 コンテキスト
Gemini 1.5 Pro 高性能、長文脈 1M → 2M
Gemini 1.5 Flash 高速、低コスト 1M

4.2 Gemini 2.0

リリース:2024年12月

特徴:

  • ネイティブマルチモーダル出力:画像・音声の生成
  • エージェント機能:Project Astra統合
  • Gemini 2.0 Flash:高速・高性能の両立
  • Thinking Mode:推論特化モード

4.3 Geminiの技術的特徴

  • MoE アーキテクチャ:効率的なスケーリング
  • 超長文脈:2Mトークン(業界最長)
  • ネイティブマルチモーダル:訓練時からの統合
  • Google統合:Search、Workspace連携

4.4 コンテキスト長の革新

Gemini 1.5 Proの長文脈能力:

  • 1Mトークン:約750,000語、1,500ページ相当
  • 2Mトークン:書籍複数冊、映画全編
  • Needle-in-a-Haystack:99%以上の精度

5. Meta Llama

5.1 Llama 3 / 3.1

リリース:2024年4月(Llama 3)、2024年7月(3.1)

モデル パラメータ コンテキスト 訓練データ
Llama 3.1 8B 8B 128K 15T+ tokens
Llama 3.1 70B 70B 128K 15T+ tokens
Llama 3.1 405B 405B 128K 15T+ tokens

5.2 Llama 3.2

リリース:2024年9月

新機能:

  • マルチモーダル:11B/90B Vision対応
  • 軽量モデル:1B/3B(エッジデバイス向け)
  • オンデバイス:スマートフォン動作可能

5.3 Llamaの技術的特徴

  • オープンウェイト:商用利用可能なライセンス
  • 標準Transformer:MoEではなくDenseモデル
  • 大規模訓練:15T+トークン(GPT-3の50倍)
  • RoPE:回転位置エンコーディング
  • GQA:Grouped Query Attention

5.4 Llama 3.1 405Bの性能

オープンモデル最大・最高性能:

  • MMLU:88.6%(GPT-4に匹敵)
  • HumanEval:89.0%
  • GSM8K:96.8%
  • MATH:73.8%

6. その他の主要モデル

6.1 Mistral AI

主要モデル:

  • Mistral 7B(2023年):小規模ながら高性能
  • Mixtral 8x7B(2023年):MoE、47Bパラメータ(12B活性)
  • Mixtral 8x22B(2024年):MoE、141Bパラメータ
  • Mistral Large 2(2024年):123B、クローズド

特徴:効率重視、MoE先駆者、欧州発

6.2 DeepSeek(中国)

主要モデル:

  • DeepSeek-V2(2024年):236B MoE(21B活性)、MLA導入
  • DeepSeek-V3(2024年):671B MoE(37B活性)
  • DeepSeek-R1(2025年):推論特化

技術的特徴:

  • MLA(Multi-head Latent Attention):KVキャッシュ圧縮
  • DeepSeekMoE:細粒度Expert + 共有Expert
  • コスト効率:$5.5M(557万ドル)での訓練(DeepSeek-V3)

6.3 xAI Grok

  • Grok-1(2023年):314B MoE
  • Grok-2(2024年):X/Twitter統合

特徴:リアルタイム情報、ユーモア許容

6.4 Cohere

  • Command R / R+:RAG特化
  • Embed:埋め込み特化

特徴:エンタープライズ向け、検索統合

6.5 オープン研究モデル

  • OLMo(AI2):完全オープン(データ・コード含む)
  • Falcon(TII):オープンウェイト
  • Qwen(Alibaba):多言語対応

7. 総合比較

7.1 スペック比較(2024-2025年主要モデル)

モデル パラメータ コンテキスト MoE 公開
GPT-4o 〜1.76T? 128K 推定Yes クローズド
Claude 3.5 Sonnet 非公開 200K 非公開 クローズド
Gemini 1.5 Pro 非公開 2M Yes クローズド
Llama 3.1 405B 405B 128K No(Dense) オープン
Mixtral 8x22B 141B(39B活性) 64K Yes オープン
DeepSeek-V3 671B(37B活性) 128K Yes オープン

7.2 ベンチマーク比較

ベンチマーク GPT-4o Claude 3.5 Gemini 1.5 Llama 405B
MMLU 88.7% 88.7% 86.5% 88.6%
HumanEval 90.2% 92.0% 84.1% 89.0%
MATH 76.6% 78.3% 67.7% 73.8%
GPQA 53.6% 65.0% 46.2% 51.1%

※数値は公式発表・リークに基づく推定値。評価条件により変動。

7.3 特徴的な強み

  • GPT-4o:汎用性、マルチモーダル統合、エコシステム
  • Claude:長文脈、コーディング、安全性、誠実性
  • Gemini:超長文脈(2M)、Google統合、マルチモーダル
  • Llama:オープン、カスタマイズ性、コミュニティ
  • Mistral:効率性、MoE技術、欧州データ主権
  • DeepSeek:コスト効率、アーキテクチャ革新

7.4 選択の指針

用途 推奨モデル
汎用チャットボット GPT-4o、Claude 3.5 Sonnet
コード生成 Claude 3.5 Sonnet、GPT-4o
長文書分析 Gemini 1.5 Pro、Claude
数学・推論 o1/o3、Claude
オンプレミス/カスタム Llama 3.1、Mistral
低コスト大規模処理 DeepSeek-V3、Llama

8. 参考文献

技術レポート

  • OpenAI (2023). "GPT-4 Technical Report"
  • Anthropic (2024). "The Claude 3 Model Family"
  • Google DeepMind (2024). "Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context"
  • Meta (2024). "The Llama 3 Herd of Models"
  • Mistral AI (2024). "Mixtral of Experts"
  • DeepSeek-AI (2024). "DeepSeek-V3 Technical Report"

ベンチマーク