AIニュース3行まとめ
2026年6月4日 21:24

音声AI評価のEVA-Bench Data 2.0公開

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

3行まとめ

  • ServiceNowが音声AI評価基盤2.0を公開
  • 3分野・121ツール・213シナリオ
  • MITライセンスでOSS公開

詳細

背景

ServiceNow-AIが、音声AIエージェントの性能を評価するベンチマーク「EVA-Bench Data 2.0」を公開した。前バージョンから約4倍にシナリオを拡張し、企業の現場業務に即した評価を可能にする。音声エージェントの失敗は分野ごとに異なるため、横断的な検証が課題とされてきた。

内容

対象は航空会社のカスタマーサービス、企業のITサービス管理、医療人事の3分野で、合計121種類のツールと213のシナリオ、35以上の業務フローを含む。各シナリオはOpenAIのGPT-5.4、GoogleのGemini 3.1 Pro、AnthropicのClaude Opus 4.6で検証し、解決可能性を担保した。グラフ型生成パイプラインSyGraで、利用者の目標・データベース・想定結果を一括生成する。

今後の影響

データセット・評価基盤・リーダーボードはMITライセンスでHugging Faceに公開され、誰でも利用できる。多言語対応も開発中で、会話言語に加え氏名や地名なども現地化する。

なぜ重要か

企業向け音声AIエージェントの性能を分野横断で比較できる無料の評価基盤となり、開発やツール選定の指標になる。

元記事を読む — Hugging Face Blog

人気記事