GoogleのGemini 3 FlashがGPT-5.2 Extra Highを複数ベンチマークで上回る:高速化と推論力の両立を主張

Googleが発表したGemini 3 Flashが、OpenAIの最上位推論設定であるGPT-5.2 Extra Highをいくつかのベンチマークで上回ったと報告され、速度と推論能力のトレードオフに関する従来の常識が再検討されている。概要と主な評価結果、用途と価格を整理する。
発表の要点と設計哲学
GoogleはGemini 3 Flashを「速度とスケーラビリティが知能を損なう必要はない」ことを示すモデルとして位置付けている。設計段階からコスト効率と応答性を重視しつつ、特定の状況ではより長い「思考時間」を割り当てて複雑なタスクに対応できるようにしているとされる。Googleの公式記事もこの点を強調している。
トークン効率とスループット
Googleは、Gemini 3 Flashが典型的なトラフィックにおいて平均で既存のGemini 2.5 Proより30%少ないトークンで多様なタスクを高精度に完了できると報告している(応答時間を犠牲にしない形で)。この設計は大規模展開時のコストとレイテンシ削減を目的としている。
ベンチマーク比較(主要結果)
複数の公開ベンチマークでの比較結果では、Gemini 3 Flashが幾つかの指標でGPT-5.2 Extra Highを上回っている。
- SimpleQA Verified:Gemini 3 Flash 68.7%、GPT-5.2 Extra High 38.0%(知識問題の信頼性評価)。
- MMMU-Pro(マルチモーダル推論):Gemini 3 Flash 81.2%、GPT-5.2 Extra High 79.5%。
- Video-MMMU:Gemini 3 Flash 86.9%、GPT-5.2 Extra High 85.9%。
- 多言語・文化理解:Gemini 3 Flash 91.8%、GPT-5.2 Extra High 89.6%。
- Global PIQA(100言語の常識評価):Gemini 3 Flash 92.8%、GPT-5.2 Extra High 91.2%。
- ツール利用・エージェント能力(Toolathlon):Gemini 3 Flash 49.4%、GPT-5.2 Extra High 46.3%。
- FACTS Benchmark Suite:Gemini 3 Flash 61.9%、GPT-5.2 Extra High 61.4%。
これらの結果はGoogleが示した比較に基づくもので、ベンチマークの詳細は各種公開資料や報告に依る。ベンチマーク自体の限界についても注意が必要であり、指標はモデルの実世界性能を完全に表すものではないとする指摘もある(参考: ベンチマークに関する解説)。
推論能力の“純粋な”比較ではOpenAI優勢の面も
一方で、推論の最も厳密な領域ではGPT-5.2 Extra Highが優位なケースもある。例として、視覚的パズルに焦点を当てたARC-AGI-2ではGPT-5.2 Extra Highが52.9%を記録し、Gemini 3 Flashの33.6%を大きく上回っている。さらに、コード実行を含むAIME 2025ではGPT-5.2 Extra Highが100%、Flashが99.7%を示し、ソフトウェア工学向けのSWE-bench VerifiedでもGPT-5.2 Extra Highが80.0%、Gemini 3 Flashが78.0%を示した。
GPT-5.2 Extra Highとは何か
記事内で言及されているGPT-5.2 Extra Highは、OpenAIのAPIにおける最高推論レベル(ドキュメントでは「xhigh」と表記)を指す呼称であり、一般向けに頻繁に言及されるモデル名ではないことが説明されている。詳細はOpenAIの公式ドキュメントに譲られる。OpenAI公式の説明を参照のこと。
利用可能性と導入手段
Gemini 3 Flashは地域制限なく利用可能で、Geminiアプリにアクセスできるユーザーは既にこのモデルをデフォルトで利用しているという。開発者向けにはAPI、AI Studio、Vertex AI経由で提供されており、米国では検索のAI Modeのデフォルトモデルにも設定されていると報告されている。
料金体系
開発者や企業がGemini 3 Flashをアプリケーションに組み込む場合の料金は、入力トークンが$0.50 / 100万トークン、出力トークンが$3.00 / 100万トークンとされ、これはGemini Flash 2.5(入力 $0.30 / 100万、出力 $2.50 / 100万)に比べて若干上昇している。
評価の受け止め方と業界への示唆
今回の比較は、従来「軽量=速いが推論力不足」という図式に揺さぶりをかける結果となった。ただし、ベンチマークの得点は評価条件やタスク設計に依存し、実運用での振る舞いはユースケースによって異なるため、導入時には自社のワークロードでの検証が必要である。
関連資料・画像
記事中に挿入されたベンチマーク表や関連画像はGoogleの発表資料に基づくもので、発表本文へのリンクは次の通りである:Google – Gemini 3 Flash。





