AI視覚的コンピュータ操作2025考察|18ヶ月で6倍性能向上の衝撃と未来展望
AI視覚的コンピュータ操作2025考察|18ヶ月で6倍性能向上の衝撃と未来展望
更新日:2025年11月7日
Computer Use技術の最新進展と性能向上
AI視覚的コンピュータ制御技術は、2024年10月から2025年11月までの約1年間で驚異的な進化を遂げました。最も注目すべきは、主要ベンチマークOSWorldにおける性能向上です。
Anthropic Claude Computer Useの革新
2024年10月22日、Anthropicは世界初の商用コンピュータ制御AIとして「Claude Computer Use」をパブリックベータリリースしました。初期バージョンのOSWorldスコアはわずか14.9%でしたが、その後の進化は目覚ましいものがあります。
• 2024年10月:OSWorld 14.9%(初期リリース)
• 2025年5月:OSWorld 42.2%(Claude 4)
• 2025年9月:OSWorld 61.4%(Claude Sonnet 4.5)
• 人間ベースライン:72.4%
技術的には、Claudeはピクセルカウント方式を採用しています。スクリーンショットを撮影し、ピクセル座標でカーソル移動先を決定するという仕組みです。Anthropicの研究チームによると、「Claudeにピクセルを正確にカウントする訓練を施すことが決定的に重要だった」とのことです。
Google Gemini 2.5 Computer Useの参入
2025年10月7日、GoogleはGemini 2.5 Computer Useをパブリックプレビューとして発表しました。13種類のUI操作(クリック、タイピング、スクロール、ドラッグ&ドロップなど)をサポートし、主にWebブラウザ用に最適化されています。
| ベンチマーク | Claude Sonnet 4.5 | Gemini 2.5 | 人間 |
|---|---|---|---|
| OSWorld | 61.4% | - | 72.4% |
| Online-Mind2Web | 約61% | 約70% | - |
| WebVoyager | - | 88.9% | - |
| AndroidWorld | - | 69.7% | 80.0% |
驚異的なベンチマーク性能の向上
最も驚くべき成果は、AndroidWorldベンチマークにおけるDroidrunの91.4%という記録です。これは人間の80%を超えており、特定のドメインでAIが人間を上回った初めてのケースの1つとなりました。わずか18ヶ月で、初期の30.6%から3倍の性能向上を達成しています。
AndroidWorld初期ベースライン:30.6%
2025年6月
Droidrun:63.0%達成
2025年10月
Droidrun:91.4%(人間の80%を超える)
学術研究の最前線と技術的ブレークスルー
2024-2025年の学術研究は、テキストベースから純粋な視覚ベースアプローチへのパラダイムシフトを示しています。主要な研究プロジェクトと技術革新を詳しく見ていきましょう。
Alibaba DAMO AcademyのGUI-Owl
2025年8月に発表されたGUI-Owlは、「自己進化型GUIトラジェクトリ生成」という革新的なデータ生成フレームワークを導入しました。AIエージェント自身が環境を探索し、自らのトラジェクトリを生成し、正確性を検証し、反復的に改善するという画期的なアプローチです。
• AndroidWorld:73.3%
• OSWorld:37.7%
• 14人以上の研究者による共同研究
• Android、Ubuntu、macOS、Windowsに対応
清華大学とByteDanceのUI-TARSシリーズ
UI-TARSは、500億トークンのGUI特化事前学習を実施し、System-2型の熟考的推論を実装しています。特に注目すべきは、「Reflective Online Traces」という手法で、数百台の仮想マシン上で自動化されたデータ収集を行い、人間の介入を最小限に抑えながら学習している点です。
| ベンチマーク | UI-TARS-2性能 | 人間ベースライン |
|---|---|---|
| Online-Mind2Web | 88.2% | - |
| OSWorld | 47.5% | 72.4% |
| WindowsAgentArena | 50.6% | 74.5% |
| AndroidWorld | 73.3% | 80.0% |
Microsoft ResearchのOmniParser V2
2025年1月にリリースされたOmniParser V2は、純粋な視覚ベースのスクリーン解析を実現しました。YOLOv8をファインチューニングしてクリック可能な領域を検出し、Florence-2でセマンティックな説明を生成します。
OmniParser V2の技術的特徴
- レイテンシ削減:V1から60%の削減を達成
- ScreenSpot Pro精度:39.6%(GPT-4oの0.8%から劇的改善)
- クロスプラットフォーム:HTML/メタデータ不要で動作
- 小要素検出:改善されたが50ピクセル以下は依然課題
技術的ブレークスルーの要因
研究の進展を支える主要な技術革新には、以下のようなものがあります:
「Behavior Best-of-N」技術により、複数のロールアウトサンプリングと選択を使用することで、OSWorldで62.6%から69.9%への7.3ポイントの改善を実現しました。これは人間レベルにわずか2.4ポイント差まで迫る成果です。
さらに、「Progressive Zooming」(粗から細へのグラウンディング)、「Attention-Based Action Heads」(座標フリーのグラウンディング)、「Jediデータセット」(400万のGUIグラウンディング例)などの革新が、急速な性能向上を支えています。
物理的ロボットによるPC操作の現状
興味深いことに、人型ロボットが物理的にマウスとキーボードを操作してコンピュータを制御するという研究は、ほぼ存在しないことが判明しました。Boston Dynamics Atlas、Figure AI、Tesla Optimusなど、主要な人型ロボット企業のいずれも、この機能を実証していません。
• ソフトウェアインターフェースが1000倍高速
• 精度は100%対95-98%
• コストは物理ロボットの数分の一
• 機械的故障のリスクなし
• 市場需要が実質ゼロ
商用展開の現状と未来予測
AI Computer Use市場は2024年の51億ドルから、2030年までに471億ドル(年平均成長率44.8%)に達すると予測されています。主要プレイヤーの動向と実用化の進展を見ていきましょう。
主要企業の最新動向
2024-2025年の市場で最も注目すべき動きは、Adept AIの事実上の買収です。2024年6月、共同創設者と大多数のチームメンバーがAmazonのAGI組織に参加し、Amazonは技術、マルチモーダルモデル、データセットをライセンス供与されました。
• WebArena:58.1%(新最先端)
• WebVoyager:87%成功率
• ChatGPT Pro加入者のみ(月額200ドル)
Microsoft Copilot Vision(2024年12月5日プレビュー)
• Microsoft Edgeブラウザで動作
• 事前承認されたWebサイトリストのみ
• 米国のProサブスクライバー限定
MultiOn(2024年評価額1億ドル)
• 1万人以上のベータユーザー
• Agent APIを開発者に提供
• Chromeエクステンションで動作
実用化されているユースケース
明確なROIを示すユースケースが確立されつつあり、特にソフトウェア開発とカスタマーサービスで大きな成果を上げています。
| 分野 | 主要ツール | 成果 |
|---|---|---|
| ソフトウェア開発 | GitHub Copilot | 3億ドル以上の収益 |
| ソフトウェア開発 | Cursor | 5億ドルのARR(3年未満) |
| コーディング | Claude | SWE-bench 49%成功率 |
| カスタマーサービス | Yellow.ai等 | 50%の効率改善 |
未解決の技術的課題
現在の技術には依然として重大な限界が存在します。最も重要な課題を整理すると:
主要な技術的課題
- GUIグラウンディング精度:50ピクセル未満の要素で性能が大幅に低下
- 解像度の堅牢性:4K以上の高解像度で精度低下
- 長期計画:15-100ステップの複雑タスクで一貫性維持が困難
- プラットフォーム汎化:デスクトップ/モバイル間の性能差
- リアルタイム性:人間の3-5倍のステップ数を要する
CAD・専門ソフトウェアの自動化
CADソフトウェア自動化の研究は初期段階にあり、ほとんどの研究がCADソフトウェア内のAI支援機能に焦点を当てています。Autodesk ResearchのAutoConstrainはFusion 360に展開済みで、93%の完全制約スケッチを達成していますが、CADアプリケーションを自律的に操作するAIエージェントの研究は極めて限定的です。
• 100以上のコマンドを持つ密なボタンレイアウト
• サブピクセル精度のスプライン制御要件
• コンテキスト依存ツールバー
• モーダルダイアログの複雑な操作シーケンス
• 精密度メトリクスが未公表
人間レベル達成の予測時期
AI専門家による予測と現在の技術進展速度を総合すると、以下のような時期が予想されます:
コンピュータ使用エージェントは、特定のベンチマークスイートで2026-2027年までに人間レベルの性能を達成する可能性が高いが、すべてのコンピュータタスクにわたる汎用的で堅牢な人間レベル制御は2030-2035年までかかる可能性がある。
| ベンチマーク | 現在の最高性能 | 人間レベル到達予測 |
|---|---|---|
| AndroidWorld | 91.4%(達成済み) | 2025年(達成済み) |
| OSWorld | 69.9% | 2025年後半-2026年初頭 |
| WebArena | 53.0% | 2026-2027年 |
| WindowsAgentArena | 19.5% | 2028年以降 |
市場採用の現状
最新の調査によると、企業のAIエージェント採用は急速に拡大しています:
企業採用統計(2025年)
- 79%の組織:何らかの形でAIエージェントを使用
- 23%の組織:少なくとも1つの機能でスケーリング
- 96%の組織:2025年に使用拡大を計画
- 43%の企業:AI予算の50%以上をエージェントAIに配分
- 51%の採用率:コードコパイロット(最も高い採用率)
AI視覚的コンピュータ操作技術は、わずか18ヶ月で驚異的な進化を遂げ、一部領域では既に人間を超える性能を実現しています。技術的課題は残されているものの、2026-2027年には多くの実用的タスクで人間レベルに到達することが予想され、2030年代には完全に汎用的なコンピュータ制御が実現する可能性があります。この技術革新は、私たちの仕事や生活を根本的に変える可能性を秘めています。
本記事は2025年11月7日時点の情報に基づいて作成されています。AI技術は急速に進化しており、記載内容が短期間で陳腐化する可能性があります。記事内容は個人的な考察に基づくものであり、技術の進展は予測困難であるため、本記事の予測が外れる可能性も十分にあります。投資判断や事業戦略については、複数の情報源を参考にし、専門家にご相談の上、自己責任で行ってください。
コメント (0)
まだコメントはありません。