評価指標 - AI入門 - はとはとプロジェクト

※画像は生成AIによるイメージです。

1. 評価の概要

1.1 なぜ評価が重要か

モデル比較：異なるモデルの性能を客観的に比較
開発指針：改善すべき点を特定
品質保証：本番環境での信頼性確保
研究進捗：分野全体の発展を測定

1.2 評価の種類

種類	内容	例
内在的評価	モデル自体の性質を測定	Perplexity
外在的評価	下流タスクでの性能	QA精度、翻訳品質
自動評価	計算で算出	BLEU、BERTScore
人間評価	人間が判断	流暢さ、有用性

1.3 評価の課題

自動指標と人間の判断の乖離
多様な「良い」出力の評価が困難
ベンチマーク汚染
タスク固有 vs 汎用的評価

2. Perplexity

2.1 定義

Perplexity：言語モデルの予測の「困惑度」。低いほど良い。

PPL = exp(-1/N × Σ log P(w_i | w_1, ..., w_{i-1}))

N：トークン数
P(w_i | ...)：次トークンの予測確率
交差エントロピーの指数

2.2 直感的理解

「次のトークンを予測する際、平均的に何個の選択肢で迷っているか」

PPL = 10：平均10択相当の不確実性
PPL = 100：平均100択相当
低いほど予測が確信的

2.3 典型的な値

モデル	データセット	PPL
GPT-2 (1.5B)	WikiText-103	〜18
GPT-3 (175B)	WikiText-103	〜8
Llama 2 (70B)	WikiText-2	〜3.3

2.4 Perplexityの限界

データ依存：評価データで大きく変わる
トークナイザ依存：異なるトークナイザでは比較不可
タスク性能と相関しない場合：PPLが低くても使えないモデルもある
長文脈での問題：初期トークンの影響が小さくなる

3. 生成評価指標

3.1 BLEU

BLEU（Bilingual Evaluation Understudy、Papineni et al. 2002）：機械翻訳の標準指標。

n-gram精度の幾何平均
Brevity Penalty：短すぎる出力にペナルティ
0〜100（または0〜1）、高いほど良い

計算方法：

1-gram, 2-gram, 3-gram, 4-gramの精度を計算
幾何平均を取る
出力が参照より短ければペナルティ

3.2 ROUGE

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）：要約評価の標準。

ROUGE-N：n-gram再現率
ROUGE-L：最長共通部分列（LCS）
ROUGE-Lsum：文単位のLCS

3.3 BLEUとROUGEの違い

指標	焦点	主な用途
BLEU	精度（Precision）	機械翻訳
ROUGE	再現率（Recall）	要約

3.4 n-gram指標の限界

意味を無視：言い換えを評価できない
語順の柔軟性：正しい語順変更にペナルティ
流暢さ無視：文法的な正しさを測れない
参照依存：参照が1つだと不公平

4. 意味的評価指標

4.1 BERTScore

BERTScore（Zhang et al. 2020）：埋め込みベースの意味的類似度。

BERTで各トークンを埋め込み
生成文と参照文のトークン間のコサイン類似度
最適マッチングで精度・再現率・F1を計算

利点：

言い換えを適切に評価
意味的類似性を捉える
人間評価との相関が高い

4.2 BLEURT

BLEURT（Sellam et al. 2020）：学習ベースの評価指標。

BERTを人間評価データでファインチューニング
直接スコアを予測
タスク固有の調整が可能

4.3 MoverScore

Earth Mover's Distanceを使った埋め込み間距離。

4.4 意味的指標の限界

埋め込みモデルの品質に依存
長文での性能低下
ドメイン外での汎化問題

5. 人間評価

5.1 評価次元

次元	内容
流暢さ（Fluency）	文法的正しさ、読みやすさ
一貫性（Coherence）	論理的つながり、文脈整合性
関連性（Relevance）	質問・文脈への適切さ
正確性（Accuracy）	事実の正しさ
有用性（Helpfulness）	ユーザーの目的達成
安全性（Safety）	有害でないこと

5.2 評価方法

絶対評価：1-5のリッカート尺度
相対評価：AとBどちらが良いか
ランキング：複数出力を順位付け
Best-Worst Scaling：最良・最悪を選択

5.3 評価者間一致

Cohen's κ：2人の評価者間の一致度
Fleiss' κ：3人以上の一致度
ICC：級内相関係数

5.4 人間評価の課題

コスト：時間と費用がかかる
スケーラビリティ：大量評価が困難
一貫性：評価者間・評価者内のばらつき
バイアス：長さ、丁寧さへの偏り
専門性：技術的正確性の評価が困難

6. LLM-as-Judge

6.1 概要

LLMを評価者として使用する手法。人間評価のスケーラブルな代替。

6.2 方式

Single-answer grading：1つの出力を評価
Pairwise comparison：2つの出力を比較
Reference-guided：参照答案との比較

6.3 プロンプト例

以下の2つの回答を比較し、どちらが質問により適切に
答えているか判断してください。

質問：[質問]
回答A：[回答A]
回答B：[回答B]

より良い回答を選び、理由を説明してください。

6.4 主要ベンチマーク

MT-Bench：マルチターン会話評価
AlpacaEval：指示追従の自動評価
Arena Hard：難易度の高い比較評価

6.5 バイアスと限界

位置バイアス：最初/最後の選択肢を好む
冗長性バイアス：長い回答を好む
自己バイアス：自身の出力を好む
表面的特徴：形式に惑わされる

6.6 バイアス対策

位置をランダム化/両方で評価
複数のジャッジモデルのアンサンブル
Chain-of-Thought評価
人間評価との校正

7. 評価の限界

7.1 Goodhartの法則

「指標が目標になると、良い指標でなくなる」

指標を最適化すると、本来の目的から乖離
ベンチマークハッキングの問題
多面的評価の必要性

7.2 評価の多様性問題

同じ質問に対する「良い」回答は複数存在
参照答案ベースの評価の限界
創造的タスクの評価困難

7.3 分布シフト

ベンチマークと実世界の分布の違い
ベンチマーク性能が実用性能を反映しない
動的評価の必要性

7.4 今後の方向性

プロセスベース評価（結果だけでなく過程も）
適応的・動的ベンチマーク
実世界タスクでの評価
多言語・多文化評価

8. 参考文献

自動評価指標

Papineni et al. (2002). "BLEU: A Method for Automatic Evaluation of Machine Translation" ACL
Lin (2004). "ROUGE: A Package for Automatic Evaluation of Summaries" ACL Workshop
Zhang et al. (2020). "BERTScore: Evaluating Text Generation with BERT" ICLR
Sellam et al. (2020). "BLEURT: Learning Robust Metrics for Text Generation" ACL

LLM-as-Judge

Zheng et al. (2023). "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" NeurIPS
Li et al. (2023). "AlpacaEval: An Automatic Evaluator of Instruction-following Models" GitHub

評価の課題

Gehrmann et al. (2021). "The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics" GEM Workshop