デジ未来
AI (エーアイ)
MistralのDevstral 2が登場：欧州AIが中国モデルに挑むSWE-Bench Verifiedで72.2%を記録

MistralのDevstral 2が登場：欧州AIが中国モデルに挑むSWE-Bench Verifiedで72.2%を記録

X (Twitter) Facebook Pinterest LinkedIn Email

Mistral AIが発表したDevstral 2は、SWE-Bench Verifiedで72.2%を達成し、欧州勢として中国主導のオープンソースプログラミングモデル上位陣に肉薄。技術革新と柔軟なライセンスで開発者支援を強化します。

リーグ昇格：長らく準備されてきた技術的飛躍

過去数ヶ月、欧州と米国で開発されたオープンソースモデルは着実な進化を示していましたが、最も厳しいテストでの競争力に欠けていました。進歩は明らかでしたが、業界リーダー並みの成果を安定して示すプロジェクトが不足していました。

Devstral 2のスペック：性能、サイズ、ライセンス

Mistralの新モデルDevstral 2は、123Bパラメータの密なアーキテクチャを採用し、256Kトークンの拡張コンテキストを備え、修正版MITライセンスでオープン環境での採用を容易にします。コンパクト版Devstral Small 2は24BパラメータでApache 2.0ライセンスです。同社が公開したSWE-Bench Verifiedのスコアでは、Devstral 2が72.2%を獲得し、オープンモデル上位層に食い込みました。

ベンチマーク上位は中国モデルが独占：DeepSeek V3.2が73.1%で首位、Kimi K2 Thinkingが71.3%、Qwen 3 Coder PlusやMinimax M2が約69%です。下位にはGLM 4.6、GPT-OSS-120B、CWM、DeepSWEが並びます。プロプライエタリモデルではGemini 3 Proが76.2%、GPT 5.1 Codex Maxが77.9%、Claude Sonnet 4.5が77.2%と上回ります。

SWE-Bench Verifiedとは：実世界プログラミングタスクの厳格評価

SWE-Bench Verifiedは、合成問題ではなく実際のオープンソースリポジトリのエラーを修正し、失敗テストをパスさせるパッチ生成を評価します。プロジェクト構造の理解、問題原因特定、 coherentな解決策提案を測ります。Pythonリポジトリ限定でソフトウェア全般をカバーしない限界がありますが、有用な指標です。

コパイロットからプロジェクト全体を操作するエージェントへ

Devstral 2の登場は、プログラミングツールの進化と一致します。エディタの提案を超え、リポジトリ全体を探索・解釈し、現状に即した変更を提案するエージェント時代です。Vibe CLIは、Devstralがターミナルからファイル分析、コード修正、アクション実行を可能にし、開発者の日常ワークフローに統合します。

コストとデプロイ：ユーザー別活用可能性

初期無料提供後、Devstral 2は入力100万トークンあたり0.40ドル、出力2.00ドル。Small 2は低価格です。デプロイではDevstral 2が最低4基のH100 GPU（データセンター向け）、Devstral Small 2が単一GPU、CPUのみでも動作可能で、企業から個人開発者まで対応します。

Devstral 2は中国企業主導の領域で欧州の存在感を示し、米国さえ及ばない高性能オープンAIとして注目。序列を変えませんが、プログラミング支援ツールの進化に新たな可能性を開きます。