OpenAIがAIエージェントのウェブ検索能力評価ベンチマーク「BrowseComp」を発表

OpenAIは2025年4月10日、AIエージェントのウェブ検索能力を評価する新たなベンチマーク「BrowseComp(ブラウズコンプ)」を発表しました。このベンチマークは、インターネット上の複雑で見つけにくい情報をAIがどれだけ正確に見つけ出せるかを測定することを目的としています。

BrowseCompの概要と設計思想

BrowseCompは、「Browsing Competition(ブラウジング競争)」の略で、1,266問の高難度な質問で構成されています。従来のSimpleQAなどの事実確認ベンチマークは、最新のブラウジング機能を備えたモデルによってすでに飽和状態に達しています。一方、BrowseCompは「見つけにくいが検証は容易」という特性を持つ問題に焦点を当て、AIが複数のウェブサイトを検索し情報を統合する能力を測定します。

BrowseCompの構造と設計思想
BrowseCompベンチマークの基本構造。問題設計の原則、問題作成基準、およびカテゴリ分布を示しています。

BrowseCompの問題は、人間のトレーナーによって以下の厳格な基準で作成されました:

  • 既存のAIモデルでは解答できないこと:GPT-4oやOpenAI o1などの最新モデルでも解答できないことを事前に検証
  • 検索エンジンで簡単に見つからないこと:5回の検索を行い、検索結果の最初のページに答えが表示されないことを確認
  • 人間が簡単に解けない問題:他のトレーナーが10分以内に解答できないことを確認

BrowseCompの核心

BrowseCompの特徴は「見つけるのは難しいが検証は容易」という非対称性にあります。この設計により、回答の正確さを容易に評価できる一方で、AIの検索能力と推論力を厳密に試すことができます。

問題の例としては以下のようなものがあります:

「1990年から1994年の間に行われたサッカーの試合で、ブラジル人審判が担当し、各チーム2枚ずつ合計4枚のイエローカードが出され(そのうち3枚は前半には出されていない)、さらに4回の選手交代があり(そのうち1回は試合開始から25分以内の負傷による交代)、対戦したのはどのチームか?」
答え: アイルランド対ルーマニア

問題のカテゴリと人間の解答能力

BrowseCompの問題は、多様なカテゴリにわたっています:

  • テレビ番組および映画:16.2%
  • 科学および技術:13.7%
  • アート:10.0%
  • 歴史:9.9%
  • スポーツ:9.7%
  • 音楽:9.2%
  • ビデオゲーム:5.6%
  • 地理:5.5%
  • 政治:4.7%
  • その他:15.6%

ベンチマークの難易度を測るために、人間のトレーナーにも問題を解答してもらったところ、トレーナーは全体の29.2%の問題しか解けませんでした。さらに解答できた問題のうち、86.4%が正解でした。人間が解答するのに要した時間の分布を見ると、1~3時間かけて解ける問題もあれば、2時間経っても解けない問題も多数ありました。

AIモデルの性能評価

BrowseCompにおけるAIモデルの性能比較
異なるAIモデルのBrowseCompにおける性能比較。特にDeep Researchモデルが他モデルを大きく上回っています。

OpenAIは、BrowseCompを用いて複数のAIモデルの性能を評価しました:

モデル 正答率
GPT-4o(ブラウジングなし) 0.6%
GPT-4o(ブラウジングあり) 1.9%
GPT-4.5 0.9%
OpenAI o1 9.9%
Deep Research 51.5%

特に注目すべきは、ウェブブラウジングに特化した「Deep Research」モデルが51.5%の正答率を達成し、他のモデルを大きく上回ったことです。このモデルはBrowseCompタスクに特化するよう訓練されており、複数のWebサイトを検索し、情報を統合・評価する能力に優れています。

GPT-4oにブラウジング機能を追加しても性能は若干向上したのみ(0.6%から1.9%へ)で、ブラウジング能力だけでなく戦略的な推論が重要であることが示されました。一方、ブラウジング機能を持たないOpenAI o1は強力な推論能力により比較的高いスコアを達成しています。

計算資源と複数回答戦略の効果

BrowseCompにおける推論戦略と計算資源の影響
計算資源の増加による性能向上と、複数回答の集約戦略(多数決投票、重み付き投票、Best of N)による精度向上効果を示しています。

OpenAIの研究によると、推論時に使用する計算資源の量が増えるほど、BrowseCompでの正答率が向上することが確認されました。これはAIエージェントが多くのウェブサイトを閲覧し、情報を統合するのに多くの計算ステップが必要なためと考えられます。

さらに、Deep Researchモデルでは、複数回の回答を生成してその中から最適な回答を選ぶ「アンサンブル戦略」の効果も検証されました:

  • 多数決投票:複数の回答から最も多く出現した回答を選択
  • 重み付き投票:各回答に付与された信頼度スコアで重み付けして投票
  • Best of N:最も高い信頼度スコアを持つ回答を選択

これらの戦略は、単一回答と比べて15%~25%の性能向上をもたらし、特に「Best of N」戦略が最も効果的でした。これは、BrowseCompの問題が「見つけるのは難しいが検証は容易」という特性を持つため、モデルが正解を得た場合に高い確信度を示すことができるためと考えられます。

性能分布と難易度分析

Deep Researchモデルの64回の試行における合格率の分布を分析したところ、16%の問題では100%の合格率(常に正解)を示す一方、14%の問題では0%の合格率(常に不正解)を示しました。これは問題の難易度に大きな幅があることを示しています。

興味深いことに、Deep Researchが一度も正解できなかった問題に対して、正解を提示した上で証拠となるウェブページを見つけるよう指示したところ、多くの場合成功しました。これは、問題が解決不可能なわけではなく、単に非常に難しいだけであることを示しています。

今後の展望

OpenAIは、BrowseCompのオープンソース化により、AIエージェントのウェブ検索能力の向上と評価の標準化を目指しています。このベンチマークは一般的な検索クエリの性能を測定するものではありませんが、特定の難解な情報を見つけ出す能力を測定する上で重要なツールとなります。

今後、AIエージェントがより複雑なウェブ検索タスクを実行できるようになれば、情報検索の効率が大幅に向上し、人間と協力してより高度な知識作業を行う可能性が開けるでしょう。

出典: OpenAI - BrowseComp: a benchmark for browsing agents(2025年4月10日)

× 拡大図