※画像は生成AIによるイメージです。
1. 評価の概要
1.1 なぜ評価が重要か
- モデル比較:異なるモデルの性能を客観的に比較
- 開発指針:改善すべき点を特定
- 品質保証:本番環境での信頼性確保
- 研究進捗:分野全体の発展を測定
1.2 評価の種類
| 種類 |
内容 |
例 |
| 内在的評価 |
モデル自体の性質を測定 |
Perplexity |
| 外在的評価 |
下流タスクでの性能 |
QA精度、翻訳品質 |
| 自動評価 |
計算で算出 |
BLEU、BERTScore |
| 人間評価 |
人間が判断 |
流暢さ、有用性 |
1.3 評価の課題
- 自動指標と人間の判断の乖離
- 多様な「良い」出力の評価が困難
- ベンチマーク汚染
- タスク固有 vs 汎用的評価
2. Perplexity
2.1 定義
Perplexity:言語モデルの予測の「困惑度」。低いほど良い。
PPL = exp(-1/N × Σ log P(w_i | w_1, ..., w_{i-1}))
- N:トークン数
- P(w_i | ...):次トークンの予測確率
- 交差エントロピーの指数
2.2 直感的理解
「次のトークンを予測する際、平均的に何個の選択肢で迷っているか」
- PPL = 10:平均10択相当の不確実性
- PPL = 100:平均100択相当
- 低いほど予測が確信的
2.3 典型的な値
| モデル |
データセット |
PPL |
| GPT-2 (1.5B) |
WikiText-103 |
〜18 |
| GPT-3 (175B) |
WikiText-103 |
〜8 |
| Llama 2 (70B) |
WikiText-2 |
〜3.3 |
2.4 Perplexityの限界
- データ依存:評価データで大きく変わる
- トークナイザ依存:異なるトークナイザでは比較不可
- タスク性能と相関しない場合:PPLが低くても使えないモデルもある
- 長文脈での問題:初期トークンの影響が小さくなる
3. 生成評価指標
3.1 BLEU
BLEU(Bilingual Evaluation Understudy、Papineni et al. 2002):機械翻訳の標準指標。
- n-gram精度の幾何平均
- Brevity Penalty:短すぎる出力にペナルティ
- 0〜100(または0〜1)、高いほど良い
計算方法:
- 1-gram, 2-gram, 3-gram, 4-gramの精度を計算
- 幾何平均を取る
- 出力が参照より短ければペナルティ
3.2 ROUGE
ROUGE(Recall-Oriented Understudy for Gisting Evaluation):要約評価の標準。
- ROUGE-N:n-gram再現率
- ROUGE-L:最長共通部分列(LCS)
- ROUGE-Lsum:文単位のLCS
3.3 BLEUとROUGEの違い
| 指標 |
焦点 |
主な用途 |
| BLEU |
精度(Precision) |
機械翻訳 |
| ROUGE |
再現率(Recall) |
要約 |
3.4 n-gram指標の限界
- 意味を無視:言い換えを評価できない
- 語順の柔軟性:正しい語順変更にペナルティ
- 流暢さ無視:文法的な正しさを測れない
- 参照依存:参照が1つだと不公平
4. 意味的評価指標
4.1 BERTScore
BERTScore(Zhang et al. 2020):埋め込みベースの意味的類似度。
- BERTで各トークンを埋め込み
- 生成文と参照文のトークン間のコサイン類似度
- 最適マッチングで精度・再現率・F1を計算
利点:
- 言い換えを適切に評価
- 意味的類似性を捉える
- 人間評価との相関が高い
4.2 BLEURT
BLEURT(Sellam et al. 2020):学習ベースの評価指標。
- BERTを人間評価データでファインチューニング
- 直接スコアを予測
- タスク固有の調整が可能
4.3 MoverScore
Earth Mover's Distanceを使った埋め込み間距離。
4.4 意味的指標の限界
- 埋め込みモデルの品質に依存
- 長文での性能低下
- ドメイン外での汎化問題
5. 人間評価
5.1 評価次元
| 次元 |
内容 |
| 流暢さ(Fluency) |
文法的正しさ、読みやすさ |
| 一貫性(Coherence) |
論理的つながり、文脈整合性 |
| 関連性(Relevance) |
質問・文脈への適切さ |
| 正確性(Accuracy) |
事実の正しさ |
| 有用性(Helpfulness) |
ユーザーの目的達成 |
| 安全性(Safety) |
有害でないこと |
5.2 評価方法
- 絶対評価:1-5のリッカート尺度
- 相対評価:AとBどちらが良いか
- ランキング:複数出力を順位付け
- Best-Worst Scaling:最良・最悪を選択
5.3 評価者間一致
- Cohen's κ:2人の評価者間の一致度
- Fleiss' κ:3人以上の一致度
- ICC:級内相関係数
5.4 人間評価の課題
- コスト:時間と費用がかかる
- スケーラビリティ:大量評価が困難
- 一貫性:評価者間・評価者内のばらつき
- バイアス:長さ、丁寧さへの偏り
- 専門性:技術的正確性の評価が困難
6. LLM-as-Judge
6.1 概要
LLMを評価者として使用する手法。人間評価のスケーラブルな代替。
6.2 方式
- Single-answer grading:1つの出力を評価
- Pairwise comparison:2つの出力を比較
- Reference-guided:参照答案との比較
6.3 プロンプト例
以下の2つの回答を比較し、どちらが質問により適切に
答えているか判断してください。
質問:[質問]
回答A:[回答A]
回答B:[回答B]
より良い回答を選び、理由を説明してください。
6.4 主要ベンチマーク
- MT-Bench:マルチターン会話評価
- AlpacaEval:指示追従の自動評価
- Arena Hard:難易度の高い比較評価
6.5 バイアスと限界
- 位置バイアス:最初/最後の選択肢を好む
- 冗長性バイアス:長い回答を好む
- 自己バイアス:自身の出力を好む
- 表面的特徴:形式に惑わされる
6.6 バイアス対策
- 位置をランダム化/両方で評価
- 複数のジャッジモデルのアンサンブル
- Chain-of-Thought評価
- 人間評価との校正
7. 評価の限界
7.1 Goodhartの法則
「指標が目標になると、良い指標でなくなる」
- 指標を最適化すると、本来の目的から乖離
- ベンチマークハッキングの問題
- 多面的評価の必要性
7.2 評価の多様性問題
- 同じ質問に対する「良い」回答は複数存在
- 参照答案ベースの評価の限界
- 創造的タスクの評価困難
7.3 分布シフト
- ベンチマークと実世界の分布の違い
- ベンチマーク性能が実用性能を反映しない
- 動的評価の必要性
7.4 今後の方向性
- プロセスベース評価(結果だけでなく過程も)
- 適応的・動的ベンチマーク
- 実世界タスクでの評価
- 多言語・多文化評価
8. 参考文献
自動評価指標
- Papineni et al. (2002). "BLEU: A Method for Automatic Evaluation of Machine Translation" ACL
- Lin (2004). "ROUGE: A Package for Automatic Evaluation of Summaries" ACL Workshop
- Zhang et al. (2020). "BERTScore: Evaluating Text Generation with BERT" ICLR
- Sellam et al. (2020). "BLEURT: Learning Robust Metrics for Text Generation" ACL
LLM-as-Judge
- Zheng et al. (2023). "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" NeurIPS
- Li et al. (2023). "AlpacaEval: An Automatic Evaluator of Instruction-following Models" GitHub
評価の課題
- Gehrmann et al. (2021). "The GEM Benchmark: Natural Language Generation, its Evaluation and
Metrics" GEM Workshop