AlibabaのQwen3-Max-ThinkingがGemini 3 Proに挑む:AI推論モデルの新時代

2022年11月のChatGPT登場以来、AI競争が加速し、中国のAlibabaがQwen3-Max-Thinkingを発表。Gemini 3 Proと競う推論特化モデルとして、ベンチマークで優位性を示し、コスト効率も高い。
ベンチマークが示す性能
Qwen3-Max-Thinkingは、19のベンチマークでGemini 3 Proと比較され、Geminiが11でリード、Qwenが8で勝利。この結果は「どちらが優れているか」を決定づけるものではないが、AlibabaがGoogleに挑む競争の性質を明らかにする。各ベンチマークは、知識一般からプログラミング、ツール使用、指示追従、長文コンテキスト分析などの具体的な能力を測定する。
Qwen3-Max-Thinkingの強みが顕著なのは、指示追従と人間の好みに沿った会話だ。Arena-Hard v2ではQwenが90.2に対しGeminiは81.7で、最大差の8.5ポイントを記録。このベンチマークは技術的正解だけでなく、盲検比較で人間が有用と評価する最終結果を重視する。また、IFBenchでもQwenが70.9でGeminiの70.4を僅差で上回る。現実では、曖昧な指示や意図解釈が必要な場合、Qwenが自然で正確に応じる傾向が強い。
「思考モデル」としてのもう一つの強みは、数学的推論と論理問題解決。HMMT(2025年11月版と2月版)でQwenがそれぞれ94.7 vs 93.3、98.0 vs 97.5で優位。IMOAnswerBenchでも83.9 vs 83.3で勝利。多段階論理を要する問題でQwenが一貫した優位性を発揮する。
Alibabaはツール活用も標準化。適応的ツール使用で情報を取得し、コードインタープリタを呼び出す。HLE (w/ tools)でQwenが49.8に対しGemini45.8。外部ツール依存時の調査・決定・合成能力で優れる。
一方、Gemini 3 Proはエンジニア寄りで優位。MMLU-ProとMMLU-Reduxで知識一般をリード。GPQAとHLEで複雑評価を制す。コードではLiveCodeBench v6とSWE Verifiedで勝利し、プログラミングタスクに強い。AA-LCRで長文ドキュメント分析もリード。
価格とデータプライバシーの詳細
本格利用時のコストは重要。1Mトークン標準価格で、Gemini 3 Proの入力は2〜4ドル、Qwen3-Maxは1.2ドル。出力ではGemini12〜18ドルに対しQwen6ドル。標準帯で入力1.67倍、出力2倍の差。入力20万トークン超で入力3.33倍、出力3倍。
データ扱いは見落とされがち。Qwenのウェブチャットは利用規約で「ユーザーコンテンツ」をAI技術改善に使用・保存し、非識別化コンテンツを新製品に活用。オフオプションは明確でない。EUやRGPDの言及なし。プライバシーポリシーでシンガポール・インドネシア・中国でのデータ処理を明記。
Alibaba Cloudのプロ環境はトレーニングにデータ不使用、AES-256暗号化。API直呼びは履歴保存なし。Gemini API有料版もプロンプト・応答をトレーニング不使用で機密扱い。中国の国家情報法第7条は、組織・市民に国家情報活動への「支援・協力・協調」を義務づけ、秘密保持を要求。これがEUなどで懸念を生む。





