ベンチマーク汚染・限界

1. データ汚染

1.1 問題

訓練データにテストデータが含まれている。

原因:
- ウェブ上にベンチマーク問題が公開
- 大規模データ収集時に混入
- 意図的な含有

結果:
- 過大評価された性能
- 汎化能力の誤認
- モデル比較の不公平

1.2 検出方法

  • n-gramオーバーラップ分析
  • 暗記テスト(正確な再現能力)
  • 摂動への感度(言い換えで性能低下)

2. Goodhartの法則

2.1 問題

「指標が目標になると、良い指標ではなくなる」

ベンチマークへの過適応:
- ベンチマーク最適化 ≠ 真の能力向上
- テスト特有のパターン学習
- 実世界での性能と乖離

2.2 例

  • 特定のプロンプト形式への依存
  • 選択肢のパターン認識
  • 問題文のショートカット利用

3. 飽和問題

3.1 現象

ベンチマーク状況
ImageNet人間レベル超え
GLUE/SuperGLUE人間レベル達成
MMLU90%超えのモデル登場

3.2 対策

  • より難しいベンチマーク作成
  • 動的ベンチマーク
  • 多角的評価

4. 構造的限界

4.1 測定できないもの

  • 創造性・独創性
  • 常識推論の深さ
  • 長期的な一貫性
  • 倫理的判断の質

4.2 評価のバイアス

  • 英語中心
  • 西洋文化偏重
  • 学術的知識に偏り

5. 改善の方向性

5.1 動的評価

  • 定期的な問題更新
  • クラウドソーシングによる継続的収集
  • Chatbot Arena方式

5.2 多面的評価

  • 定量的 + 定性的評価
  • 人間評価の組み込み
  • 実世界タスクでのテスト

6. 参考文献

  • Sainz et al. (2023). "NLP Evaluation in trouble" EMNLP Findings
  • Raji et al. (2021). "AI and the Everything in the Whole Wide World Benchmark" NeurIPS
  • Kiela et al. (2021). "Dynabench: Rethinking Benchmarking in NLP" NAACL