MistralのDevstral 2が登場:欧州AIが中国モデルに挑むSWE-Bench Verifiedで72.2%を記録

Mistral AIが発表したDevstral 2は、SWE-Bench Verifiedで72.2%を達成し、欧州勢として中国主導のオープンソースプログラミングモデル上位陣に肉薄。技術革新と柔軟なライセンスで開発者支援を強化します。
リーグ昇格:長らく準備されてきた技術的飛躍
過去数ヶ月、欧州と米国で開発されたオープンソースモデルは着実な進化を示していましたが、最も厳しいテストでの競争力に欠けていました。進歩は明らかでしたが、業界リーダー並みの成果を安定して示すプロジェクトが不足していました。
Devstral 2のスペック:性能、サイズ、ライセンス
Mistralの新モデルDevstral 2は、123Bパラメータの密なアーキテクチャを採用し、256Kトークンの拡張コンテキストを備え、修正版MITライセンスでオープン環境での採用を容易にします。コンパクト版Devstral Small 2は24BパラメータでApache 2.0ライセンスです。同社が公開したSWE-Bench Verifiedのスコアでは、Devstral 2が72.2%を獲得し、オープンモデル上位層に食い込みました。
ベンチマーク上位は中国モデルが独占:DeepSeek V3.2が73.1%で首位、Kimi K2 Thinkingが71.3%、Qwen 3 Coder PlusやMinimax M2が約69%です。下位にはGLM 4.6、GPT-OSS-120B、CWM、DeepSWEが並びます。プロプライエタリモデルではGemini 3 Proが76.2%、GPT 5.1 Codex Maxが77.9%、Claude Sonnet 4.5が77.2%と上回ります。
SWE-Bench Verifiedとは:実世界プログラミングタスクの厳格評価
SWE-Bench Verifiedは、合成問題ではなく実際のオープンソースリポジトリのエラーを修正し、失敗テストをパスさせるパッチ生成を評価します。プロジェクト構造の理解、問題原因特定、 coherentな解決策提案を測ります。Pythonリポジトリ限定でソフトウェア全般をカバーしない限界がありますが、有用な指標です。
コパイロットからプロジェクト全体を操作するエージェントへ
Devstral 2の登場は、プログラミングツールの進化と一致します。エディタの提案を超え、リポジトリ全体を探索・解釈し、現状に即した変更を提案するエージェント時代です。Vibe CLIは、Devstralがターミナルからファイル分析、コード修正、アクション実行を可能にし、開発者の日常ワークフローに統合します。
コストとデプロイ:ユーザー別活用可能性
初期無料提供後、Devstral 2は入力100万トークンあたり0.40ドル、出力2.00ドル。Small 2は低価格です。デプロイではDevstral 2が最低4基のH100 GPU(データセンター向け)、Devstral Small 2が単一GPU、CPUのみでも動作可能で、企業から個人開発者まで対応します。
Devstral 2は中国企業主導の領域で欧州の存在感を示し、米国さえ及ばない高性能オープンAIとして注目。序列を変えませんが、プログラミング支援ツールの進化に新たな可能性を開きます。





