AIベンチマーク完全ガイド2025|23種類の評価指標を徹底解説

AIベンチマーク完全ガイド2025|23種類の評価指標を徹底解説

更新日:2025年11月22日

Gemini 3 Pro、Claude 4、GPT-5など次々とリリースされる最新AIモデル。どのモデルが本当に優れているのか、その判断基準となるのが「AIベンチマーク」です。しかし、MMLU、GPQA、HumanEvalなど様々な指標があり、それぞれ何を測定しているのか分かりにくいと感じていました。そこで個人的な調査として、2025年現在主要なAIベンチマークを体系的に整理し、各指標の目的・難易度・評価内容をまとめてみました。AIモデル選定の参考になれば幸いです。

AIベンチマークの基礎知識

ベンチマークとは何か

AIベンチマークとは、大規模言語モデル(LLM)の性能を客観的に評価するための標準化されたテストです。数学の試験で例えると、MMLUは「総合学力テスト」、HumanEvalは「プログラミング実技試験」、GPQAは「大学院レベル理系試験」といったイメージです。各モデルは同じ問題セットで評価されるため、公平な比較が可能になります。

スコアの見方
ベンチマークスコアは通常パーセンテージで表され、90%なら「100問中90問正解」を意味します。2025年現在、主要モデルの多くはMMLUで85-92%、HumanEvalで90-98%を記録しています。

ベンチマークの分類

AIベンチマークは大きく6つのカテゴリーに分類されます。

一般知識・推論系:MMLUやGPQAなど、幅広い学問分野の知識と論理的思考力を測定します。医学、法律、物理学など57科目にわたる問題で総合的な知的能力を評価します。

数学・論理系:GSM8K、MATHなど、数学的推論能力に特化した評価です。小学生レベルの文章題から数学オリンピック級の難問まで、段階的な難易度設定がされています。

コーディング系:HumanEval、MBPP、SWE-benchなど、プログラミング能力を測定します。単純なコード生成から実際のGitHub issueの解決まで、実務に近い評価が行われます。

対話・実用系:Chatbot Arena、MT-Benchなど、実際のユーザーとの対話品質を評価します。人間の評価者による比較テストで、より実用的な性能を測定します。

エージェント系:WebArena、GAIAなど、複数ステップのタスク実行能力を測定します。ツールの使用、情報収集、計画立案など、自律的な問題解決能力を評価します。

マルチモーダル系:MMMU、Video-MMMUなど、画像や動画を含む複合的な理解力を測定します。視覚情報と言語情報を統合した処理能力を評価します。

2025年の動向

従来の主要ベンチマークでは、最新モデルが軒並み90%以上のスコアを記録し、飽和状態に達しています。MMLUでは上位モデルが全て90%超、HumanEvalでは95%超となり、差別化が困難になりました。そのため、より難易度の高い新世代ベンチマークが次々と登場しています。Humanity's Last Examでは最高スコアでも8.8%、FrontierMathでは2%という低スコアとなり、AIの限界を明確に示しています。

主要ベンチマーク23種類の詳細比較

ベンチマーク一覧表

カテゴリー ベンチマーク名 問題数 評価内容 難易度 2025年トップスコア
一般知識・推論 MMLU 10,000問 57科目の総合知識(中学〜博士レベル) ★★★☆☆ 92.9% (o3)
MMLU-Pro 12,000問 MMLUの高難易度版(選択肢10個) ★★★★☆ 85-88%
GPQA 448問 大学院レベル理系問題(生物・物理・化学) ★★★★☆ 83.4% (o3)
GPQA Diamond 198問 GPQAの最高難易度版(専門家34%正解) ★★★★★ 93.8% (Gemini 3 Deep Think)
ARC Challenge 2,590問 小学校レベルの科学問題 ★★☆☆☆ 96%以上
数学・論理 GSM8K 8,500問 小学生レベルの算数文章題 ★★☆☆☆ 95%以上(飽和)
MATH 12,500問 数学コンペティションレベルの問題 ★★★★☆ 98.1% (o3-high)
AIME 30問 米国数学オリンピック予選レベル ★★★★★ 74.4% (o1)
FrontierMath 非公開 数学研究者向け未解決問題 ★★★★★ 2%
コーディング HumanEval 164問 Python関数の実装(面接レベル) ★★★☆☆ 98.2% (o4-mini-high)
MBPP 1,000問 入門レベルPythonプログラミング ★★☆☆☆ 85%以上
SWE-bench 2,294問 実際のGitHub issueの解決 ★★★★☆ 71.7%
SWE-bench Verified 500問 人間が検証した解決可能な問題 ★★★★☆ 60-75%
BigCodeBench 非公開 複雑なコーディングタスク ★★★★☆ 35.5%(人間97%)
対話・実用 Chatbot Arena 500万票以上 ユーザー投票による対話品質評価 ★★★☆☆ Elo 1400-1450
MT-Bench 80問 複数ターンの対話能力 ★★★☆☆ 9.0/10
SimpleQA 4,326問 短文回答の事実正確性 ★★★☆☆ 49.4% (o3)
エージェント WebArena 非公開 Webブラウザ操作タスク ★★★★☆ 20-30%
GAIA 非公開 ツール使用が必要な複合タスク ★★★★☆ 30-40%
Terminal-Bench 2.0 非公開 ターミナル経由のコンピューター操作 ★★★★☆ 54.2% (Gemini 3 Pro)
RE-Bench 非公開 長時間タスクの実行能力 ★★★★★ 2h:人間の4倍 / 32h:人間の半分
マルチモーダル MMMU 11,500問 画像を含む大学レベル問題 ★★★★☆ 81% (Gemini 3)
Video-MMMU 非公開 動画理解と質問応答 ★★★★☆ 87.6% (Gemini 3)

注目のベンチマーク詳細

MMLU(Massive Multitask Language Understanding)
業界標準として最も広く使用されるベンチマーク。57科目(歴史、数学、コンピューターサイエンス、法律、医学など)から10,000問の4択問題で構成。中学レベルから博士課程レベルまで幅広い難易度設定。2025年現在、トップモデルは90%を超え飽和状態に近づいています。
HumanEval
OpenAIが開発したコーディング評価の標準。164個のPython関数実装問題で、ソフトウェアエンジニアの面接問題に相当する難易度。各問題には関数シグネチャ、説明文、平均7.7個のテストケースが付属。Pass@1(1回目の出力で正解)で評価され、2025年トップモデルは98%に到達しています。
SWE-bench
実際のGitHubから収集した2,294個のソフトウェアエンジニアリング問題。12の人気Pythonリポジトリから抽出された実問題で、AIシステムにissue文を与え、コードベースを修正して問題を解決させます。2024年は4.4%だったスコアが2025年には71.7%まで向上し、最も進化が速いベンチマークです。
Chatbot Arena
500万票以上のユーザー投票に基づくリアルタイム評価システム。2つのモデルが同じ質問に回答し、ユーザーがどちらが優れているか投票します。Eloレーティングシステムで順位付けされ、2025年現在はGemini 3 Pro、Claude 4、GPT-5が上位を競っています。実用性を最もよく反映するベンチマークとして評価されています。

2025年の性能比較

主要モデルの総合性能を見ると、Gemini 3 ProはGPQA(86.4%)と推論能力で優位、Claude 4 OpusはSWE-bench(72.5%)とコーディングで最強、OpenAI o3シリーズは数学(98.1%)で圧倒的です。一方、Llama 4などオープンソースモデルも急速に追い上げており、クローズドモデルとの差は1.7ポイントまで縮小しています。

ベンチマークの限界と実用上の注意点

ベンチマークの3つの問題

飽和問題(Saturation):従来の主要ベンチマークでは、最新モデルが軒並み90%以上を記録し、性能差が見えにくくなっています。MMLUで90%超、HumanEvalで95%超という状態では、どのモデルを選んでも大差ないように見えてしまいます。これを受けて、HuggingFaceは2024年にリーダーボードv2を発表し、飽和したベンチマークを除外しました。

データ汚染(Contamination):モデルの学習データにベンチマーク問題が含まれている可能性があります。研究によると、一部のモデルはMATHやGSM8Kの問題を逐語的に再現でき、真の理解ではなく記憶に基づいて高スコアを獲得しています。学習データカットオフ前の問題では顕著に高い正解率を示すケースも報告されています。

実用性とのギャップ:ベンチマークで高スコアでも、実際の業務では期待外れとなるケースが多発しています。MMLUのコンピューターサイエンス問題で満点でも、実際の開発現場でのデバッグができない、数学推論ベンチマークで高得点でも、顧客の複雑な割引計算で失敗するといった事例が報告されています。

新世代の評価アプローチ

より信頼できる評価方法

  • Live Benchmarks:SWE-bench-Liveのように毎月更新される問題セットで、データ汚染を防止します
  • Private Datasets:企業の非公開コードベースを使用した評価で、真の汎化性能を測定します
  • Human-in-the-Loop:専門家による詳細な評価で、自動採点では捉えられない品質を測定します
  • Task-Specific Evaluation:実際の業務タスクに特化したカスタムベンチマークを作成します
  • Long-Horizon Tasks:数時間〜数日かかる実際的なタスクで、持続的な能力を評価します

実用的な選び方

AIモデルを選ぶ際は、ベンチマークスコアだけでなく、実際の使用目的に合った評価を重視すべきです。コーディング業務ならSWE-benchとHumanEval、カスタマーサポートならChatbot Arena、研究・分析ならGPQAとMATHというように、目的別に重視すべきベンチマークは異なります。

また、複数のベンチマークを組み合わせて総合的に判断することが重要です。1つのベンチマークで突出していても、他で低スコアなら実用性に問題がある可能性があります。さらに、自社のデータで小規模なテスト評価を行い、ベンチマークスコアと実際の性能の相関を確認することを推奨します。

今後の展望

AI業界は現在「評価危機」に直面していると言われています。従来の静的ベンチマークでは最新モデルの能力を適切に測定できなくなり、より動的で実用的な評価手法が求められています。2025年以降は、継続的に更新される問題セット、複雑な長時間タスク、マルチモーダル評価、エージェント能力評価が主流になると予測されます。

重要なのは、ベンチマークは完璧な指標ではなく、あくまで参考値であるという認識です。最終的には、実際の使用環境でのテストと、ユーザーフィードバックに基づく評価が最も信頼できる判断基準となります。

参考・免責事項
本記事は2025年11月22日時点の情報に基づいて作成されています。AIモデルの性能は急速に進化しており、ベンチマークスコアも頻繁に更新されます。記事内容は個人的な調査・考察に基づくものであり、モデル選定の最終判断は各自の使用目的と実際のテスト結果に基づいて行ってください。ベンチマークには測定上の限界があり、スコアが全ての性能を表すものではありません。