Googleは2025年4月17日、Gemini 2.5 Flashのプレビュー版をGemini APIを通じて提供開始しました。このモデルは、人気の高いGemini 2.0 Flashの基盤を引き継ぎながら、推論能力を大幅に強化しつつ、速度とコストを最優先する新世代のAIモデルです。
Gemini 2.5 Flashの最も革新的な特徴は、業界初の「完全ハイブリッド推論モデル」であることです。開発者は思考プロセス(思考連鎖/chain-of-thought)のオン/オフを切り替えることができ、さらに「思考予算」を設定して品質、コスト、応答速度のバランスを最適化できます。思考機能をオフにした場合でも、2.0 Flashと同等の速度を維持しながら性能向上が図られています。
思考プロセスを制御可能な革新性
Gemini 2.5 Flashの最大の特徴は、思考プロセスの柔軟な制御にあります。従来のモデルは即座に出力を生成するのに対し、このモデルは「思考」プロセスを実行して以下のことが可能になります:
- プロンプトをより深く理解する
- 複雑なタスクをステップごとに分解する
- 回答を計画してから出力する
開発者は思考予算(thinking budget)を0から24,576トークンの範囲で設定できます。この予算は、モデルが「思考」中に生成できるトークン数を制御します。Google AI StudioとVertex AIではスライダーで調整でき、API経由でもパラメータとして設定可能です。思考予算を高く設定すると推論品質が向上し、低く設定すると速度が優先されます。
さらに、思考予算を指定しない場合は、モデルがタスクの複雑さに応じて自動的に思考量を決定する機能も備えています。例えば、単純な挨拶には最小限の思考しか使わず、複雑な数学問題には多くの思考を使うといった具合です。
性能とベンチマーク
Gemini 2.5 Flashは複雑な推論タスクで優れたパフォーマンスを発揮します。多段階の推論が必要な数学問題や研究課題の分析などで、思考プロセスを活用することでより正確で包括的な回答を提供できます。
LMArenaのHard Promptsでは、Gemini 2.5 Proに次ぐ高いパフォーマンスを示しており、Humanity's Last Examでは2.0 Flashの5.1%に対して12.1%のスコアを達成しています。このベンチマークは、数学、人文科学、自然科学の分野で人間が作成できる最も難しい問題を使用してAIシステムをテストするために設計されています。
料金体系と技術仕様
Gemini 2.5 Flashの料金体系は以下の通りです:
- 入力トークン:100万トークンあたり15セント(思考なし)
- 出力トークン:100万トークンあたり60セント(思考なし)
- 思考トークン:100万トークンあたり350セント(思考あり)
主な技術仕様:
- レート制限:1000 RPM / 10,000 RPD(有料プラン)、10 RPM / 500 RPD(無料プラン)
- 知識カットオフ:2025年1月
- 入力モダリティ:テキスト、画像、動画、音声
- 出力モダリティ:テキスト
- コンテキストウィンドウ:100万トークン
- 最大出力長:64Kトークン
利用可能性
Gemini 2.5 Flashはプレビュー版として、開発者向けにGoogle AI StudioとVertex AIで提供されています。また、Geminiアプリのユーザーも利用可能で、新機能の「Canvas」(ドキュメントやコードを洗練するための対話スペース)と組み合わせて使用できます。
GoogleはGemini 2.5 Flashの正式版(一般提供版)をリリースする前に引き続き改良を進める予定です。特に、近い将来追加される機能としては、マルチモーダル出力機能やMultimodal Live APIなどが予定されています。
出典: Google - Gemini 2.5 Flash is now in preview(2025年4月17日)