Claude Mythos Preview:Anthropicが主張する史上最高のAIモデルか?

AnthropicはClaude Mythos Previewを史上最高のAIモデルと主張する。サイバーセキュリティ分野で驚異的な能力を示すが、専門家は革命的でないと指摘する。このプレビュー版は限られた企業のみアクセス可能だ。
Anthropicの主張は本当か?
AnthropicはClaude Mythos Previewの能力を強調する。サイバーセキュリティで優位性を示す研究を公開した。しかし、専門家はこれを疑問視する。
起業家でアナリストのGary Marcusは3つの理由を挙げる。ソフトウェアエンジニアやサイバーセキュリティ専門家のツイートを引用した。
サイバーセキュリティの成果は過大評価か?
AnthropicはFirefox 147の脆弱性を発見したと強調する。実際、多くの欠陥は2つのバグの変種だった。除外すると効果率はOpus 4.6以下に低下する。
XユーザーはCybenchの使用を批判する。Opus 4.6がほぼ同等に達成したと指摘した。
他のモデルも同等の成果を上げられる?
Hugging Faceの共同創業者兼CEO、Clement Delangueは小規模オープンソースモデルで検証した。同じ問題を発見したと述べる。
ただし、観測者バイアスが存在する。Mythosが発見した箇所を事前に知っていた。Hugging Faceは「整数オーバーフロー」をヒントとして与えた。
ベンチマーク比較はどうか?
| モデル | Epoch Capabilities Index (ECI) |
|---|---|
| Claude Mythos | 競合を上回るが僅差 |
| 前世代モデル | 線形進化を超える跳躍 |
Anthropicのベンチマークでは一部で顕著な向上を示す。他のテストでは進化が控えめだ。ECIでは優位だが圧倒的でない。
FUDマーケティングの可能性は?
Anthropicの発表言語はFUD (Fear, Uncertainty, Doubt)を想起させる。OpenAIは2019年にGPT-2を「公開危険」と主張し、期待を煽った。同社発表を参照。
- 利点:Mythosは大規模で複雑なセキュリティ欠陥に強い。
- 限界:独立検証が不可能。限定的アクセスゆえ。
主な論点まとめ(FAQ)
- アクセスは?選抜企業のみ。
- 革命的か?ベンチマークで優位だが、専門家はhypeと見なす。
- 代替可能か?小規模モデルがヒントで追いつく。
- 日付:2026年4月10日関連議論。





