ベンチマーク

LLM能力を測定する主要ベンチマーク。MMLU、HellaSwag、GSM8K、HumanEval、HELM、Big-Bench、ARC。評価の課題と限界。

最終更新:2025年11月

1. ベンチマークの概要

1.1 ベンチマークとは

標準化されたテストセットと評価プロトコルによるモデル性能の測定。

  • 比較可能性:異なるモデル間で公平に比較
  • 再現性:同じ条件での評価を保証
  • 進捗測定:分野全体の発展を追跡

1.2 評価カテゴリ

カテゴリ 測定対象 代表的ベンチマーク
知識 事実・専門知識 MMLU, TriviaQA
推論 論理・数学的推論 GSM8K, MATH, ARC
常識 日常的知識・推論 HellaSwag, WinoGrande
コード プログラミング能力 HumanEval, MBPP
言語理解 読解・理解 SQuAD, RACE
安全性 有害出力回避 TruthfulQA, ToxiGen

1.3 評価設定

  • Zero-shot:例示なしで評価
  • Few-shot:数例を示して評価
  • Chain-of-Thought:推論過程を促す

2. 知識ベンチマーク

2.1 MMLU

MMLU(Massive Multitask Language Understanding、Hendrycks et al. 2021):

  • 57科目の多肢選択問題
  • 約14,000問
  • 高校〜専門家レベル
  • STEM、人文、社会科学、その他

科目例:

  • STEM:数学、物理、化学、生物、コンピュータサイエンス
  • 人文:哲学、歴史、法律
  • 社会:経済学、心理学、社会学
  • その他:医学、看護、会計

2.2 MMLUスコア推移

モデル 時期 MMLU (%)
GPT-3 (175B) 2020 〜43%
GPT-4 2023 〜87%
Claude 3 Opus 2024 〜87%
GPT-4o 2024 〜88%
人間専門家 - 〜90%

2.3 MMLU-Pro

MMLUの難易度向上版(2024):

  • 選択肢を4→10に増加
  • より推論を要する問題
  • ノイズ・エラーを除去

2.4 TriviaQA

トリビア質問への回答能力。

  • 〜95,000問
  • Wikipedia/Webからの事実質問
  • 知識検索能力の測定

3. 推論ベンチマーク

3.1 GSM8K

GSM8K(Grade School Math、Cobbe et al. 2021):

  • 小学校レベルの文章題
  • 8,500問(訓練7,500、テスト1,000)
  • 2〜8ステップの推論が必要
  • Chain-of-Thought評価の標準

例:

ジェームズは週に3回、1時間ずつスプリント練習をします。 1回の練習で60カロリー/分消費します。週に何カロリー消費しますか?

3.2 MATH

高校数学競技レベル(Hendrycks et al. 2021):

  • 12,500問
  • 7分野:代数、幾何、数論など
  • 5段階の難易度
  • 最上位はIMO級

3.3 HellaSwag

常識推論(Zellers et al. 2019):

  • 文の続きを4択から選択
  • Adversarial Filtering生成
  • 人間:95%以上、モデル評価用

3.4 WinoGrande

代名詞解決による常識推論:

  • Winogradスキーマの大規模版
  • 44,000問
  • 文脈から代名詞の指示対象を推論

3.5 ARC

ARC(AI2 Reasoning Challenge):

  • 小学校の理科問題
  • ARC-Easy / ARC-Challenge
  • 知識と推論の組み合わせ

3.6 ARC-AGI

ARC-AGI(Chollet 2019):

  • 抽象推論コーパス
  • パターン発見・一般化タスク
  • Few-shot汎化能力の測定
  • AGI評価の候補
  • o3で87.5%達成(2024)

4. コード生成ベンチマーク

4.1 HumanEval

HumanEval(Chen et al. 2021):

  • 164のPython関数実装問題
  • Docstringから関数を実装
  • テストケースで正誤判定
  • pass@k:k回の試行で正解する確率

4.2 HumanEvalスコア推移

モデル pass@1 (%)
Codex (2021) 〜29%
GPT-4 (2023) 〜67%
Claude 3.5 Sonnet 〜92%
o1 〜92%

4.3 MBPP

MBPP(Mostly Basic Programming Problems):

  • 974問の基本的なプログラミング問題
  • HumanEvalより易しい
  • クラウドソースで収集

4.4 SWE-bench

実際のGitHubイシュー解決(2024):

  • 2,294の実際のバグ修正タスク
  • 人気Pythonリポジトリから収集
  • コードベース全体の理解が必要
  • より実践的な評価

5. 総合ベンチマーク

5.1 HELM

HELM(Holistic Evaluation of Language Models、Stanford 2022):

  • 42シナリオ、59メトリクス
  • 精度、校正、堅牢性、公平性、効率性
  • 多面的・包括的評価
  • 標準化された評価プロトコル

5.2 Big-Bench

Big-Bench(BIG-bench collaboration, 2022):

  • 200+タスク
  • コミュニティ貢献型
  • 創発的能力の発見を目的
  • Big-Bench Hard:特に困難な23タスク

5.3 Open LLM Leaderboard

Hugging Face運営のオープンモデル評価:

  • MMLU、HellaSwag、ARC等を統合
  • オープンモデルのランキング
  • 再現可能な評価環境

5.4 Chatbot Arena

Chatbot Arena(LMSYS):

  • 人間によるブラインド比較
  • Eloレーティングシステム
  • リアルタイムランキング
  • 100万+投票

6. 安全性ベンチマーク

6.1 TruthfulQA

誤情報・幻覚の測定(Lin et al. 2022):

  • 817問の「罠」質問
  • 人間が間違えやすい誤解
  • 真実性と情報量を評価

6.2 ToxiGen

有害コンテンツ生成の評価:

  • 13の人口統計グループ
  • 暗黙的な偏見も検出
  • 機械生成の有害テキスト

6.3 HarmBench

安全性評価の標準化(2024):

  • 有害行動カテゴリの定義
  • 攻撃・防御の評価
  • Red Teamingの標準化

6.4 SimpleQA

事実性評価(OpenAI 2024):

  • 4,326の短答式質問
  • 明確に正誤判定可能
  • 幻覚率の測定

7. ベンチマーク汚染

7.1 汚染問題

ベンチマーク汚染:訓練データにテストデータが混入。

  • インターネット上のベンチマーク問題
  • 意図しない漏洩
  • 過大評価の原因

7.2 検出方法

  • n-gram重複:訓練・テスト間の重複検出
  • Membership Inference:データが訓練に使われたか推定
  • パフォーマンス分析:不自然な高性能を検出

7.3 対策

  • 動的ベンチマーク:定期的に更新
  • 非公開テストセット:問題を公開しない
  • 時間制限:訓練日以降のデータで評価
  • Canary文字列:データ追跡用マーカー

7.4 ベンチマーク飽和

モデル性能がベンチマーク上限に到達:

  • MMLUで90%近く達成
  • 差別化が困難に
  • より難しいベンチマークの必要性
  • MMLU-Pro、GPQA等の登場

8. 参考文献

主要ベンチマーク論文

  • Hendrycks et al. (2021). "Measuring Massive Multitask Language Understanding" ICLR(MMLU)
  • Cobbe et al. (2021). "Training Verifiers to Solve Math Word Problems" arXiv(GSM8K)
  • Chen et al. (2021). "Evaluating Large Language Models Trained on Code" arXiv(HumanEval)
  • Zellers et al. (2019). "HellaSwag: Can a Machine Really Finish Your Sentence?" ACL
  • Chollet (2019). "On the Measure of Intelligence" arXiv(ARC)

総合評価

  • Liang et al. (2022). "Holistic Evaluation of Language Models" arXiv(HELM)
  • Srivastava et al. (2022). "Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models" arXiv(Big-Bench)
  • Zheng et al. (2023). "Judging LLM-as-a-Judge" NeurIPS(Chatbot Arena)

汚染・限界

  • Sainz et al. (2023). "NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination" EMNLP Findings