2026年5月31日 16:48
AI検索エージェント、実は記憶頼りと判明
AI search agents often confirm what they already know instead of actually researching the web
3行まとめ
- •主要AI検索エージェントは実は検索せず記憶で回答
- •新指標が直近90日の事象で実力を検証
- •記憶が使えないと性能が崩れ順位も逆転
詳細
背景
GPT-5.4やKimi K2.6など主要なAI検索エージェントは、既存ベンチマークで高い性能を示してきた。しかしハルビン工業大学の研究チームは、これらのエージェントが実際にはWebを十分に調査せず、学習時に記憶した知識を確認するだけで回答している可能性を指摘した。
内容
研究チームは「LiveBrowseComp」という新しい時間軸ベースのベンチマークを開発した。これは直近90日以内に発生した事象のみを質問対象とし、モデルが学習済みの記憶に頼れない状況を作り出す。記憶でカバーできない問いに直面すると、エージェントの性能は大きく低下し、既存ランキングの順位も入れ替わった。
今後の影響
この発見はAI検索エージェントの評価方法に再考を迫る。従来のベンチマークは記憶力を測っているだけで、実際の調査能力を正しく評価できていなかった可能性がある。最新情報を扱う業務でエージェントを使う際は、本当にWebを調査しているかを見極める必要がある。
なぜ重要か
AI検索エージェントの評価が記憶力に偏っていた可能性を示し、最新情報を扱う業務でのツール選定に影響する。
元記事を読む — The Decoder