OpenAIがAI研究再現能力評価のベンチマーク「PaperBench」を発表

OpenAIは2025年4月2日、AIエージェントが最先端のAI研究論文を再現する能力を評価する新しいベンチマーク「PaperBench」を発表しました。このベンチマークでは、AIエージェントがICML 2024のSpotlightおよびOral論文20件を一から再現する能力を客観的に評価します。これには論文の貢献の理解、コードベースの開発、実験の成功的な実行が含まれています。

PaperBenchの概要と目的

AI研究の再現性は、科学の進歩において重要な課題です。PaperBenchは、AIエージェントが研究論文を理解し、実装して再現する能力を測定するための包括的な評価基準を提供することを目的としています。

客観的な評価を行うため、OpenAIのチームは各再現タスクを小さなサブタスクに階層的に分解し、明確な採点基準を持つルーブリックを開発しました。合計で8,316の個別に評価可能なタスクがPaperBenchに含まれています。これらのルーブリックは、各ICML論文の著者と共同で開発され、精度と現実性を確保しています。

PaperBenchの評価プロセスフロー

PaperBenchの評価プロセスフロー。論文選定から最終評価までの一連の流れを示しています。論文著者と協力してルーブリックを作成し、AIエージェントの評価を行います。

ベンチマークの構成と評価方法

PaperBenchでは、研究論文の再現タスクを「論文理解」「コード実装」「実験実行」「結果検証」という4つの主要なフェーズに分解しています。各フェーズは更に小さなタスクに分割され、AIエージェントの能力を詳細に評価できる構造になっています。

PaperBenchの評価タスク階層構造

PaperBenchでは論文再現タスクを論文理解、コード実装、実験実行、結果検証の4段階に分解して評価します。各段階には複数のサブタスクが含まれています。

評価を効率的に行うため、OpenAIはLLMベースの審査システムも開発しました。このシステムはルーブリックに基づいて再現の試みを自動的に採点します。さらに、審査システム自体の性能を評価するための別のベンチマークも作成されています。

評価結果と人間との比較

OpenAIは複数のフロンティアモデルをPaperBenchで評価しました。テストされたエージェントの中で最も高いパフォーマンスを示したのは、オープンソースのスキャフォールディングを使用したClaude 3.5 Sonnet (New)でしたが、その平均再現スコアは21.0%にとどまりました。

PaperBenchにおけるAIと人間の性能比較

現状のAIモデルの中で最も高い性能を示したClaude 3.5 Sonnetでも21.0%の再現率にとどまり、トップML PhDの研究者の性能には及びません。

興味深いことに、OpenAIはトップクラスの機械学習博士課程の研究者にPaperBenchのサブセットを試行してもらった結果、現状のAIモデルは人間のベースラインを上回ることができないことが判明しました。これは、研究論文の理解と再現においてAIにはまだ大きな改善の余地があることを示しています。

主要な洞察

最も高性能なAIエージェントであるClaude 3.5 Sonnet (New)でも、ICML 2024論文の再現性は平均21.0%にとどまる。これは現状のAIモデルが研究論文を完全に理解し再現するには至っていないことを示している。

オープンソース化と今後の展望

OpenAIはPaperBenchのコードをオープンソース化し、AIエージェントのAIエンジニアリング能力を理解するための今後の研究を促進することを目指しています。このベンチマークは、AIシステムが研究を理解し実装する能力の評価において重要な一歩となるでしょう。

今後の展望として、AIが研究論文をより効果的に理解し再現できるようにするための改善方法や、より複雑な研究領域への応用など、多くの研究課題が考えられます。PaperBenchはAI研究コミュニティに新たな評価基準を提供し、AIシステムの能力と限界についての理解を深める手助けとなるでしょう。

「AIモデルの研究再現能力を客観的に評価することは、AIシステムの性能と限界を理解する上で重要です。PaperBenchはその最初の一歩となります」— OpenAI研究チーム

出典: OpenAI - PaperBench: Evaluating AI's Ability to Replicate AI Research（2025年4月2日）

関連リポジトリ: GitHub - OpenAI/paperbench