2026年7月4日 01:14
英国AISIが標準ベンチマークの過小評価を指摘
UK's AI Security Institute finds standard benchmarks systematically underestimate what AI agents can actually do
3行まとめ
- •英国AISIが7ベンチマーク調査で過小評価を確認
- •トークン予算10倍で成功率25%向上
- •実際の進歩は従来測定比60%急峻と判明
詳細
背景
英国のAI Security Institute(AISI)は、AIエージェントの能力評価に広く使われている標準ベンチマーク7種を対象とした調査を実施した。その結果、これらのベンチマークが計算リソース(トークン予算)を人工的に制限することで、AIエージェントの真の能力を系統的に過小評価していることが明らかになった。
内容
ソフトウェアエンジニアリングタスクにおいて、トークン予算を10倍に増やすと成功率が約25ポイント上昇した。この恩恵は特に最新モデルで顕著であり、モデルが新しいほどリソース制限による評価誤差が大きいことが示された。AISIの分析では、AIフロンティアにおける実際の進歩ペースは、これまでの測定値が示す水準より約60%急峻であることが判明した。
今後の影響
この発見はAI評価体制の根本的な見直しを迫るものとなる。現行のベンチマーク結果に基づいて安全性評価や規制判断が行われている場合、実態と乖離したリスク評価が生じる。政府機関や規制当局がベンチマーク結果を政策立案に活用している現状において、この過小評価問題はAI開発の国際的な監督体制に直接影響を与える。
なぜ重要か
標準ベンチマークがAIエージェントの真の能力を系統的に過小評価しており、安全性評価や規制判断が実態と乖離するリスクがある。
元記事を読む — The Decoder