MistralのDevstral 2が登場:欧州AIが中国モデルに挑むSWE-Bench Verifiedで72.2%を記録

Mistral AIが発表したDevstral 2は、SWE-Bench Verified72.2%を達成し、欧州勢として中国主導のオープンソースプログラミングモデル上位陣に肉薄。技術革新と柔軟なライセンスで開発者支援を強化します。

リーグ昇格:長らく準備されてきた技術的飛躍

過去数ヶ月、欧州と米国で開発されたオープンソースモデルは着実な進化を示していましたが、最も厳しいテストでの競争力に欠けていました。進歩は明らかでしたが、業界リーダー並みの成果を安定して示すプロジェクトが不足していました。

Devstral 2のスペック:性能、サイズ、ライセンス

Mistralの新モデルDevstral 2は、123Bパラメータの密なアーキテクチャを採用し、256Kトークンの拡張コンテキストを備え、修正版MITライセンスでオープン環境での採用を容易にします。コンパクト版Devstral Small 224BパラメータApache 2.0ライセンスです。同社が公開したSWE-Bench Verifiedのスコアでは、Devstral 272.2%を獲得し、オープンモデル上位層に食い込みました。

ベンチマーク上位は中国モデルが独占:DeepSeek V3.273.1%で首位、Kimi K2 Thinking71.3%Qwen 3 Coder PlusMinimax M2が約69%です。下位にはGLM 4.6GPT-OSS-120BCWMDeepSWEが並びます。プロプライエタリモデルではGemini 3 Pro76.2%GPT 5.1 Codex Max77.9%Claude Sonnet 4.577.2%と上回ります。

SWE-Bench Verifiedとは:実世界プログラミングタスクの厳格評価

SWE-Bench Verifiedは、合成問題ではなく実際のオープンソースリポジトリのエラーを修正し、失敗テストをパスさせるパッチ生成を評価します。プロジェクト構造の理解、問題原因特定、 coherentな解決策提案を測ります。Pythonリポジトリ限定でソフトウェア全般をカバーしない限界がありますが、有用な指標です。

コパイロットからプロジェクト全体を操作するエージェントへ

Devstral 2の登場は、プログラミングツールの進化と一致します。エディタの提案を超え、リポジトリ全体を探索・解釈し、現状に即した変更を提案するエージェント時代です。Vibe CLIは、Devstralがターミナルからファイル分析、コード修正、アクション実行を可能にし、開発者の日常ワークフローに統合します。

コストとデプロイ:ユーザー別活用可能性

初期無料提供後、Devstral 2は入力100万トークンあたり0.40ドル、出力2.00ドル。Small 2は低価格です。デプロイではDevstral 2が最低4基のH100 GPU(データセンター向け)、Devstral Small 2が単一GPU、CPUのみでも動作可能で、企業から個人開発者まで対応します。

Devstral 2は中国企業主導の領域で欧州の存在感を示し、米国さえ及ばない高性能オープンAIとして注目。序列を変えませんが、プログラミング支援ツールの進化に新たな可能性を開きます。

Anzai Hotaka

10 年の経験を持つコンピュータ エンジニア。Linux コンピュータ システム管理者、Web プログラマー、システム エンジニア。