1. データ汚染
1.1 問題
訓練データにテストデータが含まれている。
原因:
- ウェブ上にベンチマーク問題が公開
- 大規模データ収集時に混入
- 意図的な含有
結果:
- 過大評価された性能
- 汎化能力の誤認
- モデル比較の不公平
1.2 検出方法
- n-gramオーバーラップ分析
- 暗記テスト(正確な再現能力)
- 摂動への感度(言い換えで性能低下)
2. Goodhartの法則
2.1 問題
「指標が目標になると、良い指標ではなくなる」
ベンチマークへの過適応:
- ベンチマーク最適化 ≠ 真の能力向上
- テスト特有のパターン学習
- 実世界での性能と乖離
2.2 例
- 特定のプロンプト形式への依存
- 選択肢のパターン認識
- 問題文のショートカット利用
3. 飽和問題
3.1 現象
| ベンチマーク | 状況 |
| ImageNet | 人間レベル超え |
| GLUE/SuperGLUE | 人間レベル達成 |
| MMLU | 90%超えのモデル登場 |
3.2 対策
- より難しいベンチマーク作成
- 動的ベンチマーク
- 多角的評価
4. 構造的限界
4.1 測定できないもの
- 創造性・独創性
- 常識推論の深さ
- 長期的な一貫性
- 倫理的判断の質
4.2 評価のバイアス
5. 改善の方向性
5.1 動的評価
- 定期的な問題更新
- クラウドソーシングによる継続的収集
- Chatbot Arena方式
5.2 多面的評価
- 定量的 + 定性的評価
- 人間評価の組み込み
- 実世界タスクでのテスト
6. 参考文献
- Sainz et al. (2023). "NLP Evaluation in trouble" EMNLP Findings
- Raji et al. (2021). "AI and the Everything in the Whole Wide World Benchmark" NeurIPS
- Kiela et al. (2021). "Dynabench: Rethinking Benchmarking in NLP" NAACL