AIニュース3行まとめ
2026年5月28日 02:20

IBM、企業ITタスクのAIベンチマーク公開

ITBench-AA: Frontier Models Score Below 50% on the First Benchmark for Agentic Enterprise IT Tasks — by Artificial Analysis and IBM

3行まとめ

  • IBMとArtificial Analysisが共同開発
  • 主要モデル全てが50%未満のスコア
  • 企業IT運用の自律実行能力を測定

詳細

背景

IBMとArtificial Analysisが共同で、企業のIT運用タスクを自律的に実行するAIエージェントの能力を測定する初のベンチマーク「ITBench-AA」を公開した。インシデント対応やシステム管理など、実際の企業環境で発生する複雑なITタスクを評価する。

内容

このベンチマークでは、Kubernetesクラスタの障害対応、SRE(Site Reliability Engineering)業務、FinOpsなど、実運用に近いシナリオでエージェントの性能を測定する。OpenAI、Anthropic、Googleなどの主要なフロンティアモデルを評価した結果、いずれも正答率が50%を下回り、現状のAIエージェントが企業IT業務を完全自律で担うには大きな課題があることが示された。

今後の影響

企業がAIエージェントを実際のIT運用に導入する際の現実的な指標となる。各AIベンダーはこのベンチマークを参考に、エンタープライズ向けエージェント機能の改善を進めることになる。

なぜ重要か

企業IT業務向けAIエージェントの実力を客観評価する初の基準となり、導入検討時の現実的な期待値設定に役立つ。

元記事を読む — Hugging Face Blog

人気記事