2026年6月4日 21:24
音声AI評価のEVA-Bench Data 2.0公開
EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios
3行まとめ
- •ServiceNowが音声AI評価基盤2.0を公開
- •3分野・121ツール・213シナリオ
- •MITライセンスでOSS公開
詳細
背景
ServiceNow-AIが、音声AIエージェントの性能を評価するベンチマーク「EVA-Bench Data 2.0」を公開した。前バージョンから約4倍にシナリオを拡張し、企業の現場業務に即した評価を可能にする。音声エージェントの失敗は分野ごとに異なるため、横断的な検証が課題とされてきた。
内容
対象は航空会社のカスタマーサービス、企業のITサービス管理、医療人事の3分野で、合計121種類のツールと213のシナリオ、35以上の業務フローを含む。各シナリオはOpenAIのGPT-5.4、GoogleのGemini 3.1 Pro、AnthropicのClaude Opus 4.6で検証し、解決可能性を担保した。グラフ型生成パイプラインSyGraで、利用者の目標・データベース・想定結果を一括生成する。
今後の影響
データセット・評価基盤・リーダーボードはMITライセンスでHugging Faceに公開され、誰でも利用できる。多言語対応も開発中で、会話言語に加え氏名や地名なども現地化する。
なぜ重要か
企業向け音声AIエージェントの性能を分野横断で比較できる無料の評価基盤となり、開発やツール選定の指標になる。
元記事を読む — Hugging Face Blog