ベンチマーク - AI入門 - はとはとプロジェクト

1. ベンチマークの概要

1.1 ベンチマークとは

標準化されたテストセットと評価プロトコルによるモデル性能の測定。

比較可能性：異なるモデル間で公平に比較
再現性：同じ条件での評価を保証
進捗測定：分野全体の発展を追跡

1.2 評価カテゴリ

カテゴリ	測定対象	代表的ベンチマーク
知識	事実・専門知識	MMLU, TriviaQA
推論	論理・数学的推論	GSM8K, MATH, ARC
常識	日常的知識・推論	HellaSwag, WinoGrande
コード	プログラミング能力	HumanEval, MBPP
言語理解	読解・理解	SQuAD, RACE
安全性	有害出力回避	TruthfulQA, ToxiGen

1.3 評価設定

Zero-shot：例示なしで評価
Few-shot：数例を示して評価
Chain-of-Thought：推論過程を促す

2. 知識ベンチマーク

2.1 MMLU

MMLU（Massive Multitask Language Understanding、Hendrycks et al. 2021）：

57科目の多肢選択問題
約14,000問
高校〜専門家レベル
STEM、人文、社会科学、その他

科目例：

STEM：数学、物理、化学、生物、コンピュータサイエンス
人文：哲学、歴史、法律
社会：経済学、心理学、社会学
その他：医学、看護、会計

2.2 MMLUスコア推移

モデル	時期	MMLU (%)
GPT-3 (175B)	2020	〜43%
GPT-4	2023	〜87%
Claude 3 Opus	2024	〜87%
GPT-4o	2024	〜88%
人間専門家	-	〜90%

2.3 MMLU-Pro

MMLUの難易度向上版（2024）：

選択肢を4→10に増加
より推論を要する問題
ノイズ・エラーを除去

2.4 TriviaQA

トリビア質問への回答能力。

〜95,000問
Wikipedia/Webからの事実質問
知識検索能力の測定

3. 推論ベンチマーク

3.1 GSM8K

GSM8K（Grade School Math、Cobbe et al. 2021）：

小学校レベルの文章題
8,500問（訓練7,500、テスト1,000）
2〜8ステップの推論が必要
Chain-of-Thought評価の標準

例：

ジェームズは週に3回、1時間ずつスプリント練習をします。 1回の練習で60カロリー/分消費します。週に何カロリー消費しますか？

3.2 MATH

高校数学競技レベル（Hendrycks et al. 2021）：

12,500問
7分野：代数、幾何、数論など
5段階の難易度
最上位はIMO級

3.3 HellaSwag

常識推論（Zellers et al. 2019）：

文の続きを4択から選択
Adversarial Filtering生成
人間：95%以上、モデル評価用

3.4 WinoGrande

代名詞解決による常識推論：

Winogradスキーマの大規模版
44,000問
文脈から代名詞の指示対象を推論

3.5 ARC

ARC（AI2 Reasoning Challenge）：

小学校の理科問題
ARC-Easy / ARC-Challenge
知識と推論の組み合わせ

3.6 ARC-AGI

ARC-AGI（Chollet 2019）：

抽象推論コーパス
パターン発見・一般化タスク
Few-shot汎化能力の測定
AGI評価の候補
o3で87.5%達成（2024）

4. コード生成ベンチマーク

4.1 HumanEval

HumanEval（Chen et al. 2021）：

164のPython関数実装問題
Docstringから関数を実装
テストケースで正誤判定
pass@k：k回の試行で正解する確率

4.2 HumanEvalスコア推移

モデル	pass@1 (%)
Codex (2021)	〜29%
GPT-4 (2023)	〜67%
Claude 3.5 Sonnet	〜92%
o1	〜92%

4.3 MBPP

MBPP（Mostly Basic Programming Problems）：

974問の基本的なプログラミング問題
HumanEvalより易しい
クラウドソースで収集

4.4 SWE-bench

実際のGitHubイシュー解決（2024）：

2,294の実際のバグ修正タスク
人気Pythonリポジトリから収集
コードベース全体の理解が必要
より実践的な評価

5. 総合ベンチマーク

5.1 HELM

HELM（Holistic Evaluation of Language Models、Stanford 2022）：

42シナリオ、59メトリクス
精度、校正、堅牢性、公平性、効率性
多面的・包括的評価
標準化された評価プロトコル

5.2 Big-Bench

Big-Bench（BIG-bench collaboration, 2022）：

200+タスク
コミュニティ貢献型
創発的能力の発見を目的
Big-Bench Hard：特に困難な23タスク

5.3 Open LLM Leaderboard

Hugging Face運営のオープンモデル評価：

MMLU、HellaSwag、ARC等を統合
オープンモデルのランキング
再現可能な評価環境

5.4 Chatbot Arena

Chatbot Arena（LMSYS）：

人間によるブラインド比較
Eloレーティングシステム
リアルタイムランキング
100万+投票

6. 安全性ベンチマーク

6.1 TruthfulQA

誤情報・幻覚の測定（Lin et al. 2022）：

817問の「罠」質問
人間が間違えやすい誤解
真実性と情報量を評価

6.2 ToxiGen

有害コンテンツ生成の評価：

13の人口統計グループ
暗黙的な偏見も検出
機械生成の有害テキスト

6.3 HarmBench

安全性評価の標準化（2024）：

有害行動カテゴリの定義
攻撃・防御の評価
Red Teamingの標準化

6.4 SimpleQA

事実性評価（OpenAI 2024）：

4,326の短答式質問
明確に正誤判定可能
幻覚率の測定

7. ベンチマーク汚染

7.1 汚染問題

ベンチマーク汚染：訓練データにテストデータが混入。

インターネット上のベンチマーク問題
意図しない漏洩
過大評価の原因

7.2 検出方法

n-gram重複：訓練・テスト間の重複検出
Membership Inference：データが訓練に使われたか推定
パフォーマンス分析：不自然な高性能を検出

7.3 対策

動的ベンチマーク：定期的に更新
非公開テストセット：問題を公開しない
時間制限：訓練日以降のデータで評価
Canary文字列：データ追跡用マーカー

7.4 ベンチマーク飽和

モデル性能がベンチマーク上限に到達：

MMLUで90%近く達成
差別化が困難に
より難しいベンチマークの必要性
MMLU-Pro、GPQA等の登場

8. 参考文献

主要ベンチマーク論文

Hendrycks et al. (2021). "Measuring Massive Multitask Language Understanding" ICLR（MMLU）
Cobbe et al. (2021). "Training Verifiers to Solve Math Word Problems" arXiv（GSM8K）
Chen et al. (2021). "Evaluating Large Language Models Trained on Code" arXiv（HumanEval）
Zellers et al. (2019). "HellaSwag: Can a Machine Really Finish Your Sentence?" ACL
Chollet (2019). "On the Measure of Intelligence" arXiv（ARC）

総合評価

Liang et al. (2022). "Holistic Evaluation of Language Models" arXiv（HELM）
Srivastava et al. (2022). "Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models" arXiv（Big-Bench）
Zheng et al. (2023). "Judging LLM-as-a-Judge" NeurIPS（Chatbot Arena）

汚染・限界

Sainz et al. (2023). "NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination" EMNLP Findings