モデル比較

主要LLMの特徴と性能比較。GPT、Claude、Gemini、Llama、Mistral、DeepSeek。モデル選択の指針。

最終更新:2025年11月

1. LLMランドスケープ

1.1 クローズド vs オープン

種類 特徴 代表例
クローズド API提供のみ、重みは非公開 GPT-4、Claude、Gemini
オープンウェイト 重みは公開、訓練詳細は一部非公開 Llama、Mistral
オープンソース 重み・データ・コードをすべて公開 OLMo、Pythia

1.2 モデルファミリー概観(2025年時点)

組織 主要モデル 特徴
OpenAI GPT-4o, o1/o3 マルチモーダル、推論特化
Anthropic Claude 3.5/4 長文脈、安全性
Google Gemini 1.5/2 超長文脈、マルチモーダル
Meta Llama 3.x オープン、多言語
Mistral Mistral Large, Mixtral MoE、効率性
DeepSeek DeepSeek-V3 コスト効率、MoE

2. OpenAI(GPT)

2.1 GPTシリーズ

モデル 公開 特徴
GPT-3.5 Turbo 2022 ChatGPTの基盤、低コスト
GPT-4 2023/3 大幅な性能向上、画像理解
GPT-4 Turbo 2023/11 128Kコンテキスト、低コスト
GPT-4o 2024/5 ネイティブマルチモーダル、高速
GPT-4o mini 2024/7 軽量版、GPT-3.5 Turbo後継

2.2 o1/o3シリーズ(推論特化)

  • o1-preview / o1(2024/9):推論時に「思考」
  • o3(2024/12):ARC-AGIで87.5%達成
  • 複雑な推論、数学、コーディングに強い
  • 推論時間と性能のトレードオフ

2.3 OpenAIの特徴

  • 最大規模の研究開発投資
  • 広範なエコシステム(API、ChatGPT、Plugins)
  • 継続的なアップデート
  • エンタープライズ向け機能

3. Anthropic(Claude)

3.1 Claudeシリーズ

モデル 公開 特徴
Claude 2 2023/7 100Kコンテキスト
Claude 3 Haiku/Sonnet/Opus 2024/3 3サイズ、200Kコンテキスト
Claude 3.5 Sonnet 2024/6 Opus級性能、Sonnet価格
Claude 3.5 Haiku 2024/10 高速・低コスト

3.2 Claudeの特徴

  • 長文脈:200Kトークン(約15万語)
  • Constitutional AI:原則ベースの安全性
  • コーディング:SWE-benchトップクラス
  • 文章品質:自然な日本語生成
  • Computer Use:画面操作能力(ベータ)

3.3 モデル選択

  • Haiku:高速処理、コスト重視
  • Sonnet:バランス型、最も汎用的
  • Opus:最高性能、複雑なタスク

4. Google(Gemini)

4.1 Geminiシリーズ

モデル 公開 特徴
Gemini 1.0 2023/12 Ultra/Pro/Nano
Gemini 1.5 Pro 2024/2 1Mトークンコンテキスト
Gemini 1.5 Flash 2024/5 高速・低コスト版
Gemini 2.0 Flash 2024/12 エージェント向け、マルチモーダル出力

4.2 Geminiの特徴

  • 超長文脈:1M(将来2M)トークン
  • ネイティブマルチモーダル:テキスト・画像・音声・動画
  • Google統合:Search、Workspace連携
  • TPU最適化:効率的な推論

4.3 用途別選択

  • Flash:大量処理、コスト重視
  • Pro:複雑なタスク、長文書処理
  • Ultra:最高性能(限定提供)

5. Meta(Llama)

5.1 Llamaシリーズ

モデル 公開 サイズ
Llama 2 2023/7 7B, 13B, 70B
Llama 3 2024/4 8B, 70B
Llama 3.1 2024/7 8B, 70B, 405B
Llama 3.2 2024/9 1B, 3B(軽量)、11B, 90B(マルチモーダル)
Llama 3.3 2024/12 70B(405B級性能)

5.2 Llamaの特徴

  • オープンウェイト:商用利用可能
  • ローカル実行:自社インフラで運用可能
  • 活発なコミュニティ:ファインチューニング、量子化
  • 多言語対応:8言語以上

5.3 派生モデル

  • Code Llama:コード特化
  • Llama Guard:安全性フィルタ
  • コミュニティ版:Japanese-Llama等

6. その他の主要モデル

6.1 Mistral

  • Mistral 7B:オープン、高効率
  • Mixtral 8x7B:MoE、47B総パラメータ・13Bアクティブ
  • Mistral Large:クローズド、GPT-4級
  • ヨーロッパ発、効率性重視

6.2 DeepSeek

  • DeepSeek-V2:MoE、コスト効率
  • DeepSeek-V3(2024/12):671B MoE、37Bアクティブ
  • DeepSeek-R1:推論特化(o1対抗)
  • 中国発、驚異的なコスト効率
  • 訓練コスト約560万ドル(GPT-4の1/10以下と推定)

6.3 xAI(Grok)

  • Grok-1:314B MoE
  • Grok-2:X(Twitter)統合
  • リアルタイム情報アクセス

6.4 Cohere(Command)

  • エンタープライズ向け
  • RAG最適化
  • 多言語対応

6.5 日本語特化モデル

  • ELYZA:Llama 2ベース日本語
  • Japanese StableLM:Stability AI
  • PLaMo:Preferred Networks
  • Swallow:東工大、Llama 2/3ベース

7. 性能比較

7.1 ベンチマーク比較(2024年後半)

モデル MMLU GSM8K HumanEval
GPT-4o 〜88% 〜95% 〜90%
Claude 3.5 Sonnet 〜89% 〜96% 〜92%
Gemini 1.5 Pro 〜86% 〜91% 〜84%
Llama 3.1 405B 〜88% 〜96% 〜89%
DeepSeek-V3 〜88% 〜92% 〜86%

※数値は概算。評価設定により変動。

7.2 Chatbot Arena Elo(2024年末時点)

順位 モデル Elo(概算)
1 o1 〜1350
2 Claude 3.5 Sonnet 〜1270
3 GPT-4o 〜1260
4 Gemini 1.5 Pro 〜1250
5 DeepSeek-V3 〜1250

7.3 コスト比較(概算、2024年末)

モデル 入力 ($/1M tokens) 出力 ($/1M tokens)
GPT-4o $2.50 $10.00
Claude 3.5 Sonnet $3.00 $15.00
Gemini 1.5 Pro $1.25 $5.00
GPT-4o mini $0.15 $0.60
Claude 3.5 Haiku $0.80 $4.00

8. モデル選択指針

8.1 用途別推奨

用途 推奨モデル 理由
汎用チャット GPT-4o, Claude 3.5 Sonnet 総合性能
コーディング Claude 3.5 Sonnet, o1 SWE-bench性能
長文書処理 Gemini 1.5 Pro, Claude 長文脈対応
数学・推論 o1/o3 推論特化
コスト重視 GPT-4o mini, Gemini Flash 低価格
ローカル実行 Llama 3.x, Mistral オープンウェイト
日本語特化 Claude, GPT-4o 日本語品質

8.2 選択の考慮点

  • 性能:タスク固有の性能要件
  • コスト:API料金、推論コスト
  • レイテンシ:応答速度要件
  • 文脈長:処理する文書の長さ
  • プライバシー:データの取り扱い
  • 可用性:リージョン、SLA
  • 統合性:既存システムとの連携

8.3 トレンドと今後

  • 推論時計算の増加(o1/o3モデル)
  • マルチモーダル能力の標準化
  • エージェント能力の強化
  • オープンモデルの性能向上
  • コスト効率の改善
  • 特定ドメイン特化モデル