MirrorCodeでClaude Opus 4.7が首位
An AI model programmed nonstop for 19 days on a single MirrorCode task that cost $2,600 to run
3行まとめ
- •Epoch AIがMirrorCodeベンチマークを公開
- •Claude Opus 4.7が56%の解決率でトップ
- •複雑タスクで19日稼働・2600ドルのケースも
詳細
背景
Epoch AIが開発した新しいコーディングベンチマーク「MirrorCode」は、AIモデルが元のソースコードにアクセスせず、完全なプログラムを一から再現できるかどうかを評価する仕組みだ。従来のコーディングベンチマークと異なり、数百〜数万行規模の実用的なソフトウェアを丸ごと再構築する能力を測定する点が特徴で、AIのコーディング能力をより現実的かつ実践的な視点から評価できる指標として注目されている。
評価結果
今回のテストではClaude Opus 4.7が56%の解決率でトップとなり、16,000行に及ぶ大規模ツールキットをわずか14時間で再構築することに成功した。しかし、最も複雑なタスクではテスト対象の全モデルが失敗しており、あるモデルは単一タスクに対して19日間継続してプログラミングを行い、APIのみの実行コストが2,600ドルに達した。この高コスト・長時間実行の事例は、現状のAIコーディングエージェントが抱える効率面の課題を示している。
今後の展望
MirrorCodeの結果から、AIによる自律的なプログラム再現は一定の水準に達しているが、複雑な大規模コードベースに対しては依然として大きな壁が存在することが明らかになった。56%という解決率は進歩を示す一方、失敗するケースでの膨大なコストと時間は、AIコーディングエージェントを実務で活用する際の重要な判断材料となる。
なぜ重要か
新ベンチマークMirrorCodeでAIコーディングの実力が数値化された。Claude Opus 4.7が首位も複雑タスクは全モデル失敗で、実務活用の限界が判明。