学習記事一覧
| 記事 |
説明 |
| [執筆中] 評価指標の進化 |
AI評価指標の歴史的進化。Perplexity(困惑度)の限界、BLEU/ROUGE(n-gram重複)の表面性、BERTScore(意味的類似性)の改善、BLEURT(人間評価学習)の高品質化を理解。LLM時代に包括的評価が必要な理由を学ぶ。 |
| [執筆中] 包括的ベンチマーク(MMLU、HELM等) |
多次元評価の包括的ベンチマーク。MMLU(57タスク15,908問)、HELM(複数の評価軸:Accuracy、Calibration、Robustness、Fairness、Bias、Toxicity、Efficiency等)、Big-Bench(200+タスク)を理解。単一性能ではなく多面的評価の重要性を学ぶ。 |
| [執筆中] 推論能力評価 |
高度な推論能力を測定するベンチマーク。ARC-AGI(抽象推論)、AIME(数学オリンピック予選)、Codeforces(競技プログラミング)、GSM8K(小学校算数文章題)を理解。推論能力がAGI実現の鍵となる理由を学ぶ。 |
| [執筆中] モデル性能比較 |
モデル性能を正しく比較・解釈する方法。ベンチマークスコアの読み方(信頼区間、統計的有意性)、タスク特化vs汎用性のトレードオフ、コスト効率(性能/価格)の考慮、2024年時点の主要モデル性能比較(GPT-4、Claude 3.5 Sonnet、Gemini 1.5 Pro、Llama 3等)を理解。 |
推奨学習順序
- 評価指標の進化 - 評価の歴史的変遷を理解
- 包括的ベンチマーク(MMLU、HELM等) - 多次元評価を学ぶ
- 推論能力評価 - 高度な能力の測定方法を理解
- モデル性能比較 - 実践的な比較・選択方法を習得
このカテゴリーについて
評価・ベンチマークカテゴリーでは、AIモデルの性能をどのように測定し比較するかを学びます。表面的な指標から、正確性・公平性・堅牢性・効率性を多次元的に評価する包括的アプローチへの進化を理解します。
学習目標
- 評価指標の進化(Perplexity → BLEU/ROUGE → BERTScore → MMLU)を理解する
- 包括的ベンチマーク(MMLU、HELM、Big-Bench)の設計思想を学ぶ
- 推論能力評価(ARC-AGI、AIME、Codeforces)の重要性を理解する
- モデル性能比較の正しい読み方を習得する
対象読者
研究者、モデルを選択・比較する必要がある技術者を対象としています。
推定学習時間
全4記事を通読:約6-10時間
主要参考文献
このカテゴリーの記事は以下の査読付き論文・ベンチマークを主な出典としています。各記事で詳細な引用を行います。
包括的ベンチマーク
- Hendrycks et al. (2020) "Measuring Massive Multitask Language Understanding" (MMLU) - ICLR 2021
- Liang et al. (2022) "Holistic Evaluation of Language Models" (HELM) - arXiv:2211.09110
- Srivastava et al. (2022) "Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models" (Big-Bench) - arXiv:2206.04615
推論能力評価
- Chollet (2019) "On the Measure of Intelligence" (ARC-AGI) - arXiv:1911.01547
- Cobbe et al. (2021) "Training Verifiers to Solve Math Word Problems" (GSM8K) - arXiv:2110.14168
- Hendrycks et al. (2021) "Measuring Mathematical Problem Solving With the MATH Dataset" - NeurIPS 2021
評価指標
- Papineni et al. (2002) "BLEU: a Method for Automatic Evaluation of Machine Translation" - ACL 2002
- Lin (2004) "ROUGE: A Package for Automatic Evaluation of Summaries" - ACL 2004
- Zhang et al. (2019) "BERTScore: Evaluating Text Generation with BERT" - ICLR 2020
- Sellam et al. (2020) "BLEURT: Learning Robust Metrics for Text Generation" - ACL 2020
※個別記事では、各論文への直接リンクと詳細な引用情報を提供します。
次のステップ
評価を学習した後は、以下のカテゴリーに進むことを推奨します: