2026年6月10日 04:38
ServiceNowが言語切替音声のASRを検証
Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech
3行まとめ
- •ServiceNowが言語混在音声のASRを評価
- •7モデルをWERなど3指標で比較
- •ElevenLabsが総合首位、性能差は大
詳細
背景
企業のカスタマーサービスでは、二言語を話す顧客が会話の途中で言語を切り替える「コード・スイッチング」が頻繁に起こる。ServiceNowのAI研究チームは、音声認識(ASR)システムがこうした言語混在音声をどの程度正確に処理できるかを測定するベンチマークを構築・公開した。
内容
スペイン語・フランス語・カナダフランス語・ドイツ語と英語の混在音声を対象に、HR・IT管理の実シナリオからGPT-5で自然な混在文を生成し、ElevenLabsで音声合成、言語学者が検証した。AssemblyAI、Deepgram、Google、Mistral、Nvidia、OpenAIなど7つのASRモデルを、単語誤り率(WER)、意味的誤り率、質問応答への影響(AER)の3指標で評価した。
今後の影響
総合首位はElevenLabs Scribe V2、次いでAssemblyAI、Google Gemini 3 Flashだった。言語の切り替え回数が多いほど誤りが増え、誤りは英語部分に集中した。モデル選択で性能が大きく変わるため、本番導入前の検証が重要となる。
なぜ重要か
多言語顧客に対応する音声AIを導入する企業にとって、コード混在音声に強いASRモデルを選ぶ具体的な判断材料になる。
元記事を読む — Hugging Face Blog