モデル比較

モデル比較

主要LLMの特徴と性能比較。GPT、Claude、Gemini、Llama、Mistral、DeepSeek。モデル選択の指針。

最終更新：2025年11月

1. LLMランドスケープ

1.1 クローズド vs オープン

種類	特徴	代表例
クローズド	API提供のみ、重みは非公開	GPT-4、Claude、Gemini
オープンウェイト	重みは公開、訓練詳細は一部非公開	Llama、Mistral
オープンソース	重み・データ・コードをすべて公開	OLMo、Pythia

1.2 モデルファミリー概観（2025年時点）

組織	主要モデル	特徴
OpenAI	GPT-4o, o1/o3	マルチモーダル、推論特化
Anthropic	Claude 3.5/4	長文脈、安全性
Google	Gemini 1.5/2	超長文脈、マルチモーダル
Meta	Llama 3.x	オープン、多言語
Mistral	Mistral Large, Mixtral	MoE、効率性
DeepSeek	DeepSeek-V3	コスト効率、MoE

2. OpenAI（GPT）

2.1 GPTシリーズ

モデル	公開	特徴
GPT-3.5 Turbo	2022	ChatGPTの基盤、低コスト
GPT-4	2023/3	大幅な性能向上、画像理解
GPT-4 Turbo	2023/11	128Kコンテキスト、低コスト
GPT-4o	2024/5	ネイティブマルチモーダル、高速
GPT-4o mini	2024/7	軽量版、GPT-3.5 Turbo後継

2.2 o1/o3シリーズ（推論特化）

o1-preview / o1（2024/9）：推論時に「思考」
o3（2024/12）：ARC-AGIで87.5%達成
複雑な推論、数学、コーディングに強い
推論時間と性能のトレードオフ

2.3 OpenAIの特徴

最大規模の研究開発投資
広範なエコシステム（API、ChatGPT、Plugins）
継続的なアップデート
エンタープライズ向け機能

3. Anthropic（Claude）

3.1 Claudeシリーズ

モデル	公開	特徴
Claude 2	2023/7	100Kコンテキスト
Claude 3 Haiku/Sonnet/Opus	2024/3	3サイズ、200Kコンテキスト
Claude 3.5 Sonnet	2024/6	Opus級性能、Sonnet価格
Claude 3.5 Haiku	2024/10	高速・低コスト

3.2 Claudeの特徴

長文脈：200Kトークン（約15万語）
Constitutional AI：原則ベースの安全性
コーディング：SWE-benchトップクラス
文章品質：自然な日本語生成
Computer Use：画面操作能力（ベータ）

3.3 モデル選択

Haiku：高速処理、コスト重視
Sonnet：バランス型、最も汎用的
Opus：最高性能、複雑なタスク

4. Google（Gemini）

4.1 Geminiシリーズ

モデル	公開	特徴
Gemini 1.0	2023/12	Ultra/Pro/Nano
Gemini 1.5 Pro	2024/2	1Mトークンコンテキスト
Gemini 1.5 Flash	2024/5	高速・低コスト版
Gemini 2.0 Flash	2024/12	エージェント向け、マルチモーダル出力

4.2 Geminiの特徴

超長文脈：1M（将来2M）トークン
ネイティブマルチモーダル：テキスト・画像・音声・動画
Google統合：Search、Workspace連携
TPU最適化：効率的な推論

4.3 用途別選択

Flash：大量処理、コスト重視
Pro：複雑なタスク、長文書処理
Ultra：最高性能（限定提供）

5. Meta（Llama）

5.1 Llamaシリーズ

モデル	公開	サイズ
Llama 2	2023/7	7B, 13B, 70B
Llama 3	2024/4	8B, 70B
Llama 3.1	2024/7	8B, 70B, 405B
Llama 3.2	2024/9	1B, 3B（軽量）、11B, 90B（マルチモーダル）
Llama 3.3	2024/12	70B（405B級性能）

5.2 Llamaの特徴

オープンウェイト：商用利用可能
ローカル実行：自社インフラで運用可能
活発なコミュニティ：ファインチューニング、量子化
多言語対応：8言語以上

5.3 派生モデル

Code Llama：コード特化
Llama Guard：安全性フィルタ
コミュニティ版：Japanese-Llama等

6. その他の主要モデル

6.1 Mistral

Mistral 7B：オープン、高効率
Mixtral 8x7B：MoE、47B総パラメータ・13Bアクティブ
Mistral Large：クローズド、GPT-4級
ヨーロッパ発、効率性重視

6.2 DeepSeek

DeepSeek-V2：MoE、コスト効率
DeepSeek-V3（2024/12）：671B MoE、37Bアクティブ
DeepSeek-R1：推論特化（o1対抗）
中国発、驚異的なコスト効率
訓練コスト約560万ドル（GPT-4の1/10以下と推定）

6.3 xAI（Grok）

Grok-1：314B MoE
Grok-2：X（Twitter）統合
リアルタイム情報アクセス

6.4 Cohere（Command）

エンタープライズ向け
RAG最適化
多言語対応

6.5 日本語特化モデル

ELYZA：Llama 2ベース日本語
Japanese StableLM：Stability AI
PLaMo：Preferred Networks
Swallow：東工大、Llama 2/3ベース

7. 性能比較

7.1 ベンチマーク比較（2024年後半）

モデル	MMLU	GSM8K	HumanEval
GPT-4o	〜88%	〜95%	〜90%
Claude 3.5 Sonnet	〜89%	〜96%	〜92%
Gemini 1.5 Pro	〜86%	〜91%	〜84%
Llama 3.1 405B	〜88%	〜96%	〜89%
DeepSeek-V3	〜88%	〜92%	〜86%

※数値は概算。評価設定により変動。

7.2 Chatbot Arena Elo（2024年末時点）

順位	モデル	Elo（概算）
1	o1	〜1350
2	Claude 3.5 Sonnet	〜1270
3	GPT-4o	〜1260
4	Gemini 1.5 Pro	〜1250
5	DeepSeek-V3	〜1250

7.3 コスト比較（概算、2024年末）

モデル	入力 ($/1M tokens)	出力 ($/1M tokens)
GPT-4o	$2.50	$10.00
Claude 3.5 Sonnet	$3.00	$15.00
Gemini 1.5 Pro	$1.25	$5.00
GPT-4o mini	$0.15	$0.60
Claude 3.5 Haiku	$0.80	$4.00

8. モデル選択指針

8.1 用途別推奨

用途	推奨モデル	理由
汎用チャット	GPT-4o, Claude 3.5 Sonnet	総合性能
コーディング	Claude 3.5 Sonnet, o1	SWE-bench性能
長文書処理	Gemini 1.5 Pro, Claude	長文脈対応
数学・推論	o1/o3	推論特化
コスト重視	GPT-4o mini, Gemini Flash	低価格
ローカル実行	Llama 3.x, Mistral	オープンウェイト
日本語特化	Claude, GPT-4o	日本語品質

8.2 選択の考慮点

性能：タスク固有の性能要件
コスト：API料金、推論コスト
レイテンシ：応答速度要件
文脈長：処理する文書の長さ
プライバシー：データの取り扱い
可用性：リージョン、SLA
統合性：既存システムとの連携

8.3 トレンドと今後

推論時計算の増加（o1/o3モデル）
マルチモーダル能力の標準化
エージェント能力の強化
オープンモデルの性能向上
コスト効率の改善
特定ドメイン特化モデル