Claude Mythos Preview：Anthropicが主張する史上最高のAIモデルか？

AnthropicはClaude Mythos Previewを史上最高のAIモデルと主張する。サイバーセキュリティ分野で驚異的な能力を示すが、専門家は革命的でないと指摘する。このプレビュー版は限られた企業のみアクセス可能だ。

Anthropicの主張は本当か？

AnthropicはClaude Mythos Previewの能力を強調する。サイバーセキュリティで優位性を示す研究を公開した。しかし、専門家はこれを疑問視する。

起業家でアナリストのGary Marcusは3つの理由を挙げる。ソフトウェアエンジニアやサイバーセキュリティ専門家のツイートを引用した。

AnthropicはFirefox 147の脆弱性を発見したと強調する。実際、多くの欠陥は2つのバグの変種だった。除外すると効果率はOpus 4.6以下に低下する。

XユーザーはCybenchの使用を批判する。Opus 4.6がほぼ同等に達成したと指摘した。

Hugging Faceの共同創業者兼CEO、Clement Delangueは小規模オープンソースモデルで検証した。同じ問題を発見したと述べる。

ただし、観測者バイアスが存在する。Mythosが発見した箇所を事前に知っていた。Hugging Faceは「整数オーバーフロー」をヒントとして与えた。

モデル	Epoch Capabilities Index (ECI)
Claude Mythos	競合を上回るが僅差
前世代モデル	線形進化を超える跳躍

Anthropicのベンチマークでは一部で顕著な向上を示す。他のテストでは進化が控えめだ。ECIでは優位だが圧倒的でない。

Anthropicの発表言語はFUD (Fear, Uncertainty, Doubt)を想起させる。OpenAIは2019年にGPT-2を「公開危険」と主張し、期待を煽った。同社発表を参照。