評価指標

言語モデルの性能を測定する指標。Perplexity、BLEU、ROUGE、BERTScore、人間評価。自動評価の限界と課題。

最終更新:2025年11月

評価・ベンチマーク

※画像は生成AIによるイメージです。

1. 評価の概要

1.1 なぜ評価が重要か

  • モデル比較:異なるモデルの性能を客観的に比較
  • 開発指針:改善すべき点を特定
  • 品質保証:本番環境での信頼性確保
  • 研究進捗:分野全体の発展を測定

1.2 評価の種類

種類 内容
内在的評価 モデル自体の性質を測定 Perplexity
外在的評価 下流タスクでの性能 QA精度、翻訳品質
自動評価 計算で算出 BLEU、BERTScore
人間評価 人間が判断 流暢さ、有用性

1.3 評価の課題

  • 自動指標と人間の判断の乖離
  • 多様な「良い」出力の評価が困難
  • ベンチマーク汚染
  • タスク固有 vs 汎用的評価

2. Perplexity

2.1 定義

Perplexity:言語モデルの予測の「困惑度」。低いほど良い。

PPL = exp(-1/N × Σ log P(w_i | w_1, ..., w_{i-1}))

  • N:トークン数
  • P(w_i | ...):次トークンの予測確率
  • 交差エントロピーの指数

2.2 直感的理解

「次のトークンを予測する際、平均的に何個の選択肢で迷っているか」

  • PPL = 10:平均10択相当の不確実性
  • PPL = 100:平均100択相当
  • 低いほど予測が確信的

2.3 典型的な値

モデル データセット PPL
GPT-2 (1.5B) WikiText-103 〜18
GPT-3 (175B) WikiText-103 〜8
Llama 2 (70B) WikiText-2 〜3.3

2.4 Perplexityの限界

  • データ依存:評価データで大きく変わる
  • トークナイザ依存:異なるトークナイザでは比較不可
  • タスク性能と相関しない場合:PPLが低くても使えないモデルもある
  • 長文脈での問題:初期トークンの影響が小さくなる

3. 生成評価指標

3.1 BLEU

BLEU(Bilingual Evaluation Understudy、Papineni et al. 2002):機械翻訳の標準指標。

  • n-gram精度の幾何平均
  • Brevity Penalty:短すぎる出力にペナルティ
  • 0〜100(または0〜1)、高いほど良い

計算方法:

  • 1-gram, 2-gram, 3-gram, 4-gramの精度を計算
  • 幾何平均を取る
  • 出力が参照より短ければペナルティ

3.2 ROUGE

ROUGE(Recall-Oriented Understudy for Gisting Evaluation):要約評価の標準。

  • ROUGE-N:n-gram再現率
  • ROUGE-L:最長共通部分列(LCS)
  • ROUGE-Lsum:文単位のLCS

3.3 BLEUとROUGEの違い

指標 焦点 主な用途
BLEU 精度(Precision) 機械翻訳
ROUGE 再現率(Recall) 要約

3.4 n-gram指標の限界

  • 意味を無視:言い換えを評価できない
  • 語順の柔軟性:正しい語順変更にペナルティ
  • 流暢さ無視:文法的な正しさを測れない
  • 参照依存:参照が1つだと不公平

4. 意味的評価指標

4.1 BERTScore

BERTScore(Zhang et al. 2020):埋め込みベースの意味的類似度。

  • BERTで各トークンを埋め込み
  • 生成文と参照文のトークン間のコサイン類似度
  • 最適マッチングで精度・再現率・F1を計算

利点:

  • 言い換えを適切に評価
  • 意味的類似性を捉える
  • 人間評価との相関が高い

4.2 BLEURT

BLEURT(Sellam et al. 2020):学習ベースの評価指標。

  • BERTを人間評価データでファインチューニング
  • 直接スコアを予測
  • タスク固有の調整が可能

4.3 MoverScore

Earth Mover's Distanceを使った埋め込み間距離。

4.4 意味的指標の限界

  • 埋め込みモデルの品質に依存
  • 長文での性能低下
  • ドメイン外での汎化問題

5. 人間評価

5.1 評価次元

次元 内容
流暢さ(Fluency) 文法的正しさ、読みやすさ
一貫性(Coherence) 論理的つながり、文脈整合性
関連性(Relevance) 質問・文脈への適切さ
正確性(Accuracy) 事実の正しさ
有用性(Helpfulness) ユーザーの目的達成
安全性(Safety) 有害でないこと

5.2 評価方法

  • 絶対評価:1-5のリッカート尺度
  • 相対評価:AとBどちらが良いか
  • ランキング:複数出力を順位付け
  • Best-Worst Scaling:最良・最悪を選択

5.3 評価者間一致

  • Cohen's κ:2人の評価者間の一致度
  • Fleiss' κ:3人以上の一致度
  • ICC:級内相関係数

5.4 人間評価の課題

  • コスト:時間と費用がかかる
  • スケーラビリティ:大量評価が困難
  • 一貫性:評価者間・評価者内のばらつき
  • バイアス:長さ、丁寧さへの偏り
  • 専門性:技術的正確性の評価が困難

6. LLM-as-Judge

6.1 概要

LLMを評価者として使用する手法。人間評価のスケーラブルな代替。

6.2 方式

  • Single-answer grading:1つの出力を評価
  • Pairwise comparison:2つの出力を比較
  • Reference-guided:参照答案との比較

6.3 プロンプト例

以下の2つの回答を比較し、どちらが質問により適切に
答えているか判断してください。

質問:[質問]
回答A:[回答A]
回答B:[回答B]

より良い回答を選び、理由を説明してください。

6.4 主要ベンチマーク

  • MT-Bench:マルチターン会話評価
  • AlpacaEval:指示追従の自動評価
  • Arena Hard:難易度の高い比較評価

6.5 バイアスと限界

  • 位置バイアス:最初/最後の選択肢を好む
  • 冗長性バイアス:長い回答を好む
  • 自己バイアス:自身の出力を好む
  • 表面的特徴:形式に惑わされる

6.6 バイアス対策

  • 位置をランダム化/両方で評価
  • 複数のジャッジモデルのアンサンブル
  • Chain-of-Thought評価
  • 人間評価との校正

7. 評価の限界

7.1 Goodhartの法則

「指標が目標になると、良い指標でなくなる」

  • 指標を最適化すると、本来の目的から乖離
  • ベンチマークハッキングの問題
  • 多面的評価の必要性

7.2 評価の多様性問題

  • 同じ質問に対する「良い」回答は複数存在
  • 参照答案ベースの評価の限界
  • 創造的タスクの評価困難

7.3 分布シフト

  • ベンチマークと実世界の分布の違い
  • ベンチマーク性能が実用性能を反映しない
  • 動的評価の必要性

7.4 今後の方向性

  • プロセスベース評価(結果だけでなく過程も)
  • 適応的・動的ベンチマーク
  • 実世界タスクでの評価
  • 多言語・多文化評価

8. 参考文献

自動評価指標

  • Papineni et al. (2002). "BLEU: A Method for Automatic Evaluation of Machine Translation" ACL
  • Lin (2004). "ROUGE: A Package for Automatic Evaluation of Summaries" ACL Workshop
  • Zhang et al. (2020). "BERTScore: Evaluating Text Generation with BERT" ICLR
  • Sellam et al. (2020). "BLEURT: Learning Robust Metrics for Text Generation" ACL

LLM-as-Judge

  • Zheng et al. (2023). "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" NeurIPS
  • Li et al. (2023). "AlpacaEval: An Automatic Evaluator of Instruction-following Models" GitHub

評価の課題

  • Gehrmann et al. (2021). "The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics" GEM Workshop