1. ベンチマークの概要
1.1 ベンチマークとは
標準化されたテストセットと評価プロトコルによるモデル性能の測定。
- 比較可能性:異なるモデル間で公平に比較
- 再現性:同じ条件での評価を保証
- 進捗測定:分野全体の発展を追跡
1.2 評価カテゴリ
| カテゴリ |
測定対象 |
代表的ベンチマーク |
| 知識 |
事実・専門知識 |
MMLU, TriviaQA |
| 推論 |
論理・数学的推論 |
GSM8K, MATH, ARC |
| 常識 |
日常的知識・推論 |
HellaSwag, WinoGrande |
| コード |
プログラミング能力 |
HumanEval, MBPP |
| 言語理解 |
読解・理解 |
SQuAD, RACE |
| 安全性 |
有害出力回避 |
TruthfulQA, ToxiGen |
1.3 評価設定
- Zero-shot:例示なしで評価
- Few-shot:数例を示して評価
- Chain-of-Thought:推論過程を促す
2. 知識ベンチマーク
2.1 MMLU
MMLU(Massive Multitask Language Understanding、Hendrycks et al. 2021):
- 57科目の多肢選択問題
- 約14,000問
- 高校〜専門家レベル
- STEM、人文、社会科学、その他
科目例:
- STEM:数学、物理、化学、生物、コンピュータサイエンス
- 人文:哲学、歴史、法律
- 社会:経済学、心理学、社会学
- その他:医学、看護、会計
2.2 MMLUスコア推移
| モデル |
時期 |
MMLU (%) |
| GPT-3 (175B) |
2020 |
〜43% |
| GPT-4 |
2023 |
〜87% |
| Claude 3 Opus |
2024 |
〜87% |
| GPT-4o |
2024 |
〜88% |
| 人間専門家 |
- |
〜90% |
2.3 MMLU-Pro
MMLUの難易度向上版(2024):
- 選択肢を4→10に増加
- より推論を要する問題
- ノイズ・エラーを除去
2.4 TriviaQA
トリビア質問への回答能力。
- 〜95,000問
- Wikipedia/Webからの事実質問
- 知識検索能力の測定
3. 推論ベンチマーク
3.1 GSM8K
GSM8K(Grade School Math、Cobbe et al. 2021):
- 小学校レベルの文章題
- 8,500問(訓練7,500、テスト1,000)
- 2〜8ステップの推論が必要
- Chain-of-Thought評価の標準
例:
ジェームズは週に3回、1時間ずつスプリント練習をします。
1回の練習で60カロリー/分消費します。週に何カロリー消費しますか?
3.2 MATH
高校数学競技レベル(Hendrycks et al. 2021):
- 12,500問
- 7分野:代数、幾何、数論など
- 5段階の難易度
- 最上位はIMO級
3.3 HellaSwag
常識推論(Zellers et al. 2019):
- 文の続きを4択から選択
- Adversarial Filtering生成
- 人間:95%以上、モデル評価用
3.4 WinoGrande
代名詞解決による常識推論:
- Winogradスキーマの大規模版
- 44,000問
- 文脈から代名詞の指示対象を推論
3.5 ARC
ARC(AI2 Reasoning Challenge):
- 小学校の理科問題
- ARC-Easy / ARC-Challenge
- 知識と推論の組み合わせ
3.6 ARC-AGI
ARC-AGI(Chollet 2019):
- 抽象推論コーパス
- パターン発見・一般化タスク
- Few-shot汎化能力の測定
- AGI評価の候補
- o3で87.5%達成(2024)
4. コード生成ベンチマーク
4.1 HumanEval
HumanEval(Chen et al. 2021):
- 164のPython関数実装問題
- Docstringから関数を実装
- テストケースで正誤判定
- pass@k:k回の試行で正解する確率
4.2 HumanEvalスコア推移
| モデル |
pass@1 (%) |
| Codex (2021) |
〜29% |
| GPT-4 (2023) |
〜67% |
| Claude 3.5 Sonnet |
〜92% |
| o1 |
〜92% |
4.3 MBPP
MBPP(Mostly Basic Programming Problems):
- 974問の基本的なプログラミング問題
- HumanEvalより易しい
- クラウドソースで収集
4.4 SWE-bench
実際のGitHubイシュー解決(2024):
- 2,294の実際のバグ修正タスク
- 人気Pythonリポジトリから収集
- コードベース全体の理解が必要
- より実践的な評価
5. 総合ベンチマーク
5.1 HELM
HELM(Holistic Evaluation of Language Models、Stanford 2022):
- 42シナリオ、59メトリクス
- 精度、校正、堅牢性、公平性、効率性
- 多面的・包括的評価
- 標準化された評価プロトコル
5.2 Big-Bench
Big-Bench(BIG-bench collaboration, 2022):
- 200+タスク
- コミュニティ貢献型
- 創発的能力の発見を目的
- Big-Bench Hard:特に困難な23タスク
5.3 Open LLM Leaderboard
Hugging Face運営のオープンモデル評価:
- MMLU、HellaSwag、ARC等を統合
- オープンモデルのランキング
- 再現可能な評価環境
5.4 Chatbot Arena
Chatbot Arena(LMSYS):
- 人間によるブラインド比較
- Eloレーティングシステム
- リアルタイムランキング
- 100万+投票
6. 安全性ベンチマーク
6.1 TruthfulQA
誤情報・幻覚の測定(Lin et al. 2022):
- 817問の「罠」質問
- 人間が間違えやすい誤解
- 真実性と情報量を評価
6.2 ToxiGen
有害コンテンツ生成の評価:
- 13の人口統計グループ
- 暗黙的な偏見も検出
- 機械生成の有害テキスト
6.3 HarmBench
安全性評価の標準化(2024):
- 有害行動カテゴリの定義
- 攻撃・防御の評価
- Red Teamingの標準化
6.4 SimpleQA
事実性評価(OpenAI 2024):
- 4,326の短答式質問
- 明確に正誤判定可能
- 幻覚率の測定
7. ベンチマーク汚染
7.1 汚染問題
ベンチマーク汚染:訓練データにテストデータが混入。
- インターネット上のベンチマーク問題
- 意図しない漏洩
- 過大評価の原因
7.2 検出方法
- n-gram重複:訓練・テスト間の重複検出
- Membership Inference:データが訓練に使われたか推定
- パフォーマンス分析:不自然な高性能を検出
7.3 対策
- 動的ベンチマーク:定期的に更新
- 非公開テストセット:問題を公開しない
- 時間制限:訓練日以降のデータで評価
- Canary文字列:データ追跡用マーカー
7.4 ベンチマーク飽和
モデル性能がベンチマーク上限に到達:
- MMLUで90%近く達成
- 差別化が困難に
- より難しいベンチマークの必要性
- MMLU-Pro、GPQA等の登場
8. 参考文献
主要ベンチマーク論文
- Hendrycks et al. (2021). "Measuring Massive Multitask Language Understanding" ICLR(MMLU)
- Cobbe et al. (2021). "Training Verifiers to Solve Math Word Problems" arXiv(GSM8K)
- Chen et al. (2021). "Evaluating Large Language Models Trained on Code" arXiv(HumanEval)
- Zellers et al. (2019). "HellaSwag: Can a Machine Really Finish Your Sentence?" ACL
- Chollet (2019). "On the Measure of Intelligence" arXiv(ARC)
総合評価
- Liang et al. (2022). "Holistic Evaluation of Language Models" arXiv(HELM)
- Srivastava et al. (2022). "Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models" arXiv(Big-Bench)
- Zheng et al. (2023). "Judging LLM-as-a-Judge" NeurIPS(Chatbot Arena)
汚染・限界
- Sainz et al. (2023). "NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination" EMNLP Findings