デジ未来
AI (エーアイ)
AlibabaのQwen3-Max-ThinkingがGemini 3 Proに挑む：AI推論モデルの新時代

AlibabaのQwen3-Max-ThinkingがGemini 3 Proに挑む：AI推論モデルの新時代

X (Twitter) Facebook Pinterest LinkedIn Email

2022年11月のChatGPT登場以来、AI競争が加速し、中国のAlibabaがQwen3-Max-Thinkingを発表。Gemini 3 Proと競う推論特化モデルとして、ベンチマークで優位性を示し、コスト効率も高い。

ベンチマークが示す性能

Qwen3-Max-Thinkingは、19のベンチマークでGemini 3 Proと比較され、Geminiが11でリード、Qwenが8で勝利。この結果は「どちらが優れているか」を決定づけるものではないが、AlibabaがGoogleに挑む競争の性質を明らかにする。各ベンチマークは、知識一般からプログラミング、ツール使用、指示追従、長文コンテキスト分析などの具体的な能力を測定する。

Qwen3-Max-Thinkingの強みが顕著なのは、指示追従と人間の好みに沿った会話だ。Arena-Hard v2ではQwenが90.2に対しGeminiは81.7で、最大差の8.5ポイントを記録。このベンチマークは技術的正解だけでなく、盲検比較で人間が有用と評価する最終結果を重視する。また、IFBenchでもQwenが70.9でGeminiの70.4を僅差で上回る。現実では、曖昧な指示や意図解釈が必要な場合、Qwenが自然で正確に応じる傾向が強い。

「思考モデル」としてのもう一つの強みは、数学的推論と論理問題解決。HMMT（2025年11月版と2月版）でQwenがそれぞれ94.7 vs 93.3、98.0 vs 97.5で優位。IMOAnswerBenchでも83.9 vs 83.3で勝利。多段階論理を要する問題でQwenが一貫した優位性を発揮する。

Alibabaはツール活用も標準化。適応的ツール使用で情報を取得し、コードインタープリタを呼び出す。HLE (w/ tools)でQwenが49.8に対しGemini45.8。外部ツール依存時の調査・決定・合成能力で優れる。

一方、Gemini 3 Proはエンジニア寄りで優位。MMLU-ProとMMLU-Reduxで知識一般をリード。GPQAとHLEで複雑評価を制す。コードではLiveCodeBench v6とSWE Verifiedで勝利し、プログラミングタスクに強い。AA-LCRで長文ドキュメント分析もリード。