2026年5月16日 22:08

新ベンチマーク、Claude MythosとGPT-5.5がブラウザ脆弱性を自律攻撃

New benchmark shows Claude Mythos and GPT-5.5 can develop real browser exploits autonomously

3行まとめ

•CMUが新ベンチマークを公開
•V8エンジンの脆弱性を自律攻撃
•Mythosが首位だがコスト12倍

詳細

背景

カーネギーメロン大学の研究チームが、AIエージェントが実在する脆弱性をどこまで自律的に攻撃できるかを測定する新ベンチマークを発表した。対象はGoogleのJavaScriptエンジン「V8」に存在する実際の脆弱性で、AIが単独でエクスプロイト（攻撃コード）を開発できるかを検証する。

内容

評価の結果、AnthropicのClaude MythosがOpenAIのGPT-5.5を大きく引き離して首位となった。ただしMythosの実行コストはGPT-5.5の約12倍に達し、性能とコストのトレードオフが顕著に表れた。両モデルとも、人間の介入なしに実在のブラウザ脆弱性を悪用する攻撃コードを生成できることが確認された。

今後の影響

AIエージェントが自律的に攻撃コードを開発できる段階に到達したことで、防御側のセキュリティ対策の見直しが急務となる。一方で、脆弱性発見や自動パッチ適用など防御側での活用余地も広がるが、悪用リスクをどう抑制するかが業界共通の課題となる。

なぜ重要か

AIエージェントが実在の脆弱性を自律攻撃できる水準に達し、防御側のセキュリティ戦略の見直しが必要になる。

セキュリティ・プライバシー研究・論文 Claude ベンチマーク AIエージェント

元記事を読む — The Decoder

新ベンチマーク、Claude MythosとGPT-5.5がブラウザ脆弱性を自律攻撃

3行まとめ

詳細

背景

内容

今後の影響

なぜ重要か

人気記事