2026年6月14日 17:54
AIコーディング、ファイルは当たるが行を見逃す
AI coding agents find the right file but miss the exact lines that matter, study shows
3行まとめ
- •AIAgentはファイル特定は高精度だが行は苦手
- •SWE-Exploreが探索能力を初めて単独評価
- •文脈不足が修正フェーズの失敗を招く
詳細
背景
AIコーディングエージェントはソフトウェア開発の自動化ツールとして急速に普及しているが、その性能評価はこれまで「コード探索(どこを直すかの特定)」と「バグ修正(どう直すかの実装)」を一体として評価するものが主流だった。この2フェーズを切り分けて評価しない限り、どこにボトルネックがあるかが見えにくい。SWE-Exploreは探索フェーズのみを独立して測定する初のベンチマークとして設計された。
調査結果
ベンチマークによる評価の結果、Claude CodeやCodexなどの主要コーディングエージェントは「関連ファイルを特定する」能力において高い精度を発揮した。しかし、そのファイル内で「具体的に修正が必要なコード行」を正確に特定する精度は、ファイル特定の精度と比べて大幅に劣ることが明らかになった。つまりエージェントは「どのファイルか」は正しく判断できても、「ファイルのどの行か」になると見逃しが多いという傾向が確認された。
今後の影響
この研究が示す核心は、探索フェーズでの行レベルの不正確さが修正フェーズの失敗に直結するという点だ。正しいファイルを見つけていても、文脈が不十分であれば修正の質は下がる。コーディングエージェントを実務に活用する開発者は、エージェントの探索結果を盲信せず、重要な変更箇所では人間が行レベルのコンテキストを補完するアプローチが有効だと示されている。
なぜ重要か
AIコーディングAgentはファイル特定は得意だが行レベルの精度は低く、実務活用では人間によるコンテキスト補完が必要となる。
元記事を読む — The Decoder