OpenAIが「SWE-Lancer」ベンチマーク:AIはフリーランスエンジニアとして100万ドルを稼げるか

OpenAIは2025年2月18日、「SWE-Lancer」と名付けられた新たなAIベンチマークを発表しました。これは、最新の大規模言語モデル(LLM)が、実世界のフリーランスソフトウェアエンジニアリングタスクをこなし、総額100万ドル相当の報酬を得ることができるかどうかを評価する試みです。従来の指標とは異なり、金銭的価値に直結する評価を行うことで、AIの実用性と経済的影響を明確に捉えることを目的としています。

ベンチマーク概要:SWE-Lancerとは

SWE-Lancerは、Upworkプラットフォームから収集された1,400以上の実際のフリーランスソフトウェアエンジニアリングタスクを基に作成されています。タスクは、小規模なバグ修正($50程度)から大規模な機能実装(最大$32,000)まで多岐にわたり、実際の市場価値で合計100万ドル以上の報酬が想定されています。

フリーランス市場を模したAI評価

本ベンチマークは、以下の2つの主要タスクカテゴリに分かれています。

厳格な評価プロセス

評価方法は非常に厳格です。独立タスクでは、経験豊富なソフトウェアエンジニアによる3重のエンドツーエンドテストが実施され、マネジメントタスクでは元々の雇用者であるエンジニアリングマネージャーの判断との一致率が評価基準となります。初期評価では、最先端のモデルでも多くのタスクにおいて解決が困難なことが明らかになりました。

ベンチマーク詳細構成

以下の表は、各タスクカテゴリの概要を示しています。価格帯は各タスクの実際の市場価値を反映しています。

カテゴリ タスク数 価格帯 評価方法
バグ修正 450+ $50 - $500 自動テスト通過率
小規模機能実装 350+ $100 - $1,000 自動テスト通過率
中規模機能実装 300+ $1,000 - $10,000 自動テスト通過率
大規模機能実装 150+ $10,000 - $32,000 自動テスト通過率
マネジメント判断 150+ N/A プロエンジニアとの一致率

研究とオープンソースリソース

OpenAIは、今後の研究を促進するために以下のリソースを公開しています。

AIの経済的影響を測定する新指標

本ベンチマークは、モデルのパフォーマンスを金銭的価値に直接マッピングすることで、AI技術の実用性と経済的影響を評価する新たな指標として期待されています。これにより、今後のAI開発が労働市場やソフトウェア開発業界に与える影響について、より具体的な議論が進むことが見込まれます。

「フロンティアモデルは依然として多くのタスクにおいて解決が困難であるという発見は、AI能力向上への継続的な取り組みの必要性を示唆しています。」

この研究は、AIと人間のエンジニアリングの協業可能性や限界に関する議論を深める重要な一歩となるでしょう。

出典: OpenAI - Introducing the SWE-Lancer benchmark(2025年2月18日)

著者: Samuel Miserendino, Michele Wang, Tejal Patwardhan, Johannes Heidecke

× 拡大図