语音助手能处理双语客户吗?前沿ASR在代码切换语音上的基准测试
摘要
ServiceNow AI 发布了一个基准测试和数据集,用于评估自动语音识别(ASR)在跨四种语言对(西班牙语-英语、法语-英语、加拿大法语-英语、德语-英语)的企业HR和IT场景中的代码切换语音上的表现,发现当前前沿ASR模型在代码切换方面仍存在困难,导致错误率较高。
查看缓存全文
缓存时间: 2026/06/10 00:25
语音助手能处理双语用户吗?对前沿ASR在语码转换语音上的基准测试
来源:https://huggingface.co/blog/ServiceNow-AI/code-switching 返回文章列表 (https://huggingface.co/blog)
- 引言 (https://huggingface.co/blog/ServiceNow-AI/code-switching#introduction) - 基准测试 (https://huggingface.co/blog/ServiceNow-AI/code-switching#the-benchmark)- 数据流水线 (https://huggingface.co/blog/ServiceNow-AI/code-switching#data-pipeline) - 评估方法 (https://huggingface.co/blog/ServiceNow-AI/code-switching#evaluation-methodology) - 研究发现 (https://huggingface.co/blog/ServiceNow-AI/code-switching#findings)- A. 模型在我们的语码转换基准测试中表现如何? (https://huggingface.co/blog/ServiceNow-AI/code-switching#a-how-well-do-models-perform-on-our-benchmark-for-codeswitching) - WER 结果(越低越好) (https://huggingface.co/blog/ServiceNow-AI/code-switching#wer-results-lower-is-better) - SWER 和 AER 结果(越低越好) (https://huggingface.co/blog/ServiceNow-AI/code-switching#swer-and-aer-results-lower-is-better) - B. 与纯单语语音相比,语码转换带来了多少额外成本? (https://huggingface.co/blog/ServiceNow-AI/code-switching#b-what-additional-cost-does-code-switching-add-compared-to-plain-monolingual-speech) - C. 语码转换如何导致ASR系统出错? (https://huggingface.co/blog/ServiceNow-AI/code-switching#c-how-does-code-switching-break-asr-systems) - 局限性 (https://huggingface.co/blog/ServiceNow-AI/code-switching#limitations) - 结论 (https://huggingface.co/blog/ServiceNow-AI/code-switching#conclusion) https://huggingface.co/blog/ServiceNow-AI/code-switching#introduction引言
全球超过一半的人口会说多种语言。对于许多双语使用者来说,语码转换——即在语言之间无缝切换,甚至在一句话中间切换——是日常交流的自然组成部分。无论是在日常对话、联络中心还是IT服务台,说话者都会灵活地适应当时感觉最自然的语言。
尽管全球双语使用者很普遍,但针对企业环境中语音助手如何处理语码转换语音的研究却很少。因此,当一位客户询问我们的语音助手如何为他们经常进行语码转换的大量双语客户群体服务时,我们决定构建自己的基准测试和数据集来评估模型。我们重点关注自动语音识别(ASR)——任何语音助手的首要步骤——因为转录错误会传播到所有下游组件。在企业环境中,错误路由的工单或被误解的政策问题会带来实际运营后果,因此获得正确的转录稿在语音助手流水线中尤为重要。
我们的基准测试涵盖了与客户群最相关的四种语言对:西班牙语-英语、法语-英语、加拿大法语-英语和德语-英语。它使用非英语语言作为矩阵语言,其中嵌入不同长度的英语内容。数据涵盖了广泛的人力资源(HR)和IT服务管理(ITSM)场景,包括员工关于福利或薪资的查询,以及密码重置、VPN访问或设备故障排除等支持请求。为了衡量各种模型的性能,我们报告三个指标:词错误率(WER)、语义词错误率(SWER)和答案错误率(AER)。我们选择这些指标是为了同时捕捉(1)模型在转录中的精确准确度,以及(2)它们为下游任务保留话语含义的能力。
我们通过我们的语音模型评估框架AU-Harness发布了我们的基准测试和数据。我们还提供了七个ASR系统的结果,包括一些大型音频语言模型(LALMs)、前沿ASR和开源ASR。我们的主要发现是,语码转换的成本因测试的语言对和模型而异。ElevenLabs Scribe V2、Gemini 3 Flash和Assembly AI Universal 3-Pro在各项指标中表现最佳。
https://huggingface.co/blog/ServiceNow-AI/code-switching#the-benchmark基准测试
https://huggingface.co/blog/ServiceNow-AI/code-switching#data-pipeline数据流水线
我们从内部IT支持和HR交互语料库开始。为了创建每个语码转换的话语,我们首先获取英语和四种非英语语言之一的并行用户话语,然后筛选出适合语码转换的候选语句。我们保留长度在12到40个单词之间的话语——足够短以适合自然的语音轮次,又足够长以包含真正的转换机会。我们还排除了实体占主导的话语——电子邮件、电话号码、ID或URL,这些会使文本半英语化是出于必要而非双语选择。最后,我们要求至少有三个可转换的内容词——名词、动词或形容词,且不是实体或产品名称——以便为生成模型提供足够材料来产生有意义的语码转换版本。
在此基础上,我们测试了多种以逼真方式组合语言的策略,最终选择了一个简单的人格提示,发送给LLM(OpenAI/GPT-5)来生成语码转换文本。然后,我们使用LLM朗读环节将文本转换为其口语形式,并使用ElevenLabs Multilingual V2合成音频。每个话语都会由一位母语为矩阵语言的AI/NLP语言学家进行审查;被标记的话语将被排除或重新生成并再次审查。最终数据集包含259条西班牙语-英语记录、298条法语-英语记录、188条加拿大法语-英语记录和173条德语-英语记录image (https://cdn-uploads.huggingface.co/production/uploads/6977dd4e7754c316dbc9f4b3/KjE9EikoFswYiJrepz4R4.png)
https://huggingface.co/blog/ServiceNow-AI/code-switching#evaluation-methodology评估方法
我们为每个模型每对语言报告三个指标,旨在捕捉转录准确度、含义保留和下游任务性能:
- 词错误率(WER)。除了每个语言对的整体WER外,我们还报告按单个语言划分的WER。
- 语义WER(SWER)。该分数代表被判断为具有语义意义的错误率。我们的实现主要基于Pipecat的STT基准测试 (https://github.com/pipecat-ai/stt-benchmark/blob/main/src/stt_benchmark/evaluation/semantic_wer.py),我们使用Gemma-4-31B作为判断模型。
- 答案错误率(AER)。该指标直接衡量转录错误是否传播到下游失败。这是一个问答指标,遵循Bhushan等人(IISc/ARTPARK,arXiv 2507.16456 (https://arxiv.org/pdf/2507.16456))的方法论。对于每个话语,我们生成三个下游理解问题,并测量阅读ASR转录稿的LLM能否正确回答这些问题。流程如下图所示。image (https://cdn-uploads.huggingface.co/production/uploads/6977dd4e7754c316dbc9f4b3/XhgSRGk1VKLBaiTSBSCvy.png)
https://huggingface.co/blog/ServiceNow-AI/code-switching#findings研究发现
我们评估了以下模型:
- AssemblyAI / Universal 3-Pro
- Deepgram / Nova 3 Multilang
- ElevenLabs / Scribe V2
- Google / Gemini 3 Flash
- Mistral AI / Voxtral Small 24B-2507
- Nvidia / Parakeet TDT 0.6b V3
- OpenAI / Whisper Large V3 Turbo
https://huggingface.co/blog/ServiceNow-AI/code-switching#a-how-well-do-models-perform-on-our-benchmark-for-codeswitchingA. 模型在我们的语码转换基准测试中表现如何?
我们从两个维度分析了错误:
- 词级准确度,通过WER衡量。WER是标准方法:它将真实转录稿与模型输出对齐,并量化它们之间的距离。虽然它简单且广泛使用,但无法区分轻微的拼写差异和完全错误的单词。
- 语义准确度,通过SWER和AER捕捉。SWER提供了话语级性能的整体视图,尽管它反映的是判断模型的评估而非直接的下游测试。相比之下,AER是一个功能测试:对于每个话语,三个理解问题衡量转录稿中是否保留了最关键的细节——案件编号、姓名、日期、请求原因。
当模型在不同指标上出现差异时,这些度量之间的区别变得最有意义。
https://huggingface.co/blog/ServiceNow-AI/code-switching#wer-results-lower-is-betterWER结果(越低越好)
image (https://cdn-uploads.huggingface.co/production/uploads/6977dd4e7754c316dbc9f4b3/eN7BKO9j6GJTrO-fTkdRs.png)
- ElevenLabs/Scribe V2 和 AssemblyAI/Universal-3 Pro 在转录准确度上表现最佳的两个模型。它们在西班牙语-英语上持平,在所有其他语言对上仅相差0.02-0.13个百分点,Scribe在每个语言对上略占优势。
- Google/Gemini 3 Flash 在每个语言对中紧随其后,在加拿大法语-英语上差距最大,落后Scribe 0.14个百分点,落后AssemblyAI 0.12个百分点。Deepgram/Nova-3、Mistral/Voxtral 和 Nvidia/Parakeet 占据中间排名,每个模型在至少一个语言对上表现出色。Parakeet 总体上是最弱的,但在德语-英语上缩小了差距,表现优于Nova-3和Voxtral。
- OpenAI/Whisper Large V3 Turbo 垫底,WER范围从0.16到0.61。虽然这是一个显著的下降,但它反映了Whisper已知的局限性。当在没有显式语言参数的情况下处理语码转换音频时,Whisper默认将音频翻译成英语而不是转录,从而未能保留音频中所说的语言。
https://huggingface.co/blog/ServiceNow-AI/code-switching#swer-and-aer-results-lower-is-betterSWER和AER结果(越低越好)
image (https://cdn-uploads.huggingface.co/production/uploads/6977dd4e7754c316dbc9f4b3/CHtqbGVHKAWGdCk25x76H.png)语义指标与WER大致相似,但有一些反转。
- Scribe V2 仍然位居第一,SWER和AER分数非常低。
- 尽管Assembly AI在WER上跨语言对排名第一或第二,但Gemini 3 Flash在AER上持续优于它,并将AssemblyAI推到第三位。同样的模式也出现在SWER上,尽管AssemblyAI在西班牙语-英语上优于Gemini。作为一个LALM,Gemini针对语言理解和推理进行了优化,这很可能使其在语义敏感的指标上具有优势,即使其原始转录准确度稍有不足。
- Whisper也出现了类似的性能变化。虽然它仍然持续垫底,但其表现不佳的差距在语义指标下显著缩小,这直接源于它将语码转换音频翻译成英语而非转录的倾向。
语义结果还揭示了SWER和AER之间的显著一致性。这两个指标以不同的粒度运作——SWER聚合每个单词的错误,而AER衡量每个话语的三个理解问题能否正确回答——因此规模差异是预期的。值得注意的是,在这两个指标上,相对模型排名是多么稳定。一个明显的异常值是Deepgram Nova-3,它在SWER上处于中游,但在所有语言对的AER上都排名最后或倒数第二。这种差距在西班牙语-英语上最为明显:Nova-3的整体语义错误率低于其在对最关键细节上的错误率。
https://huggingface.co/blog/ServiceNow-AI/code-switching#b-what-additional-cost-does-code-switching-add-compared-to-plain-monolingual-speechB. 与纯单语语音相比,语码转换带来了多少额外成本?
虽然这些结果清晰地展示了模型在语码转换语音上的相对性能,但它们并未揭示错误是源于转录本身的固有难度,还是由语言切换带来的额外挑战。
为了单独衡量语码转换的成本,我们将每个话语以三种音频形式通过我们的评估流水线:语码转换音频、相同内容的单语矩阵语言音频以及单语英语音频。对于每个话语,我们测量了语码转换条件和单语条件之间WER的差异,并汇总了整个基准测试的增量。结果如下。image (https://cdn-uploads.huggingface.co/production/uploads/6977dd4e7754c316dbc9f4b3/6feIzK5z7jhjPNzs_6hEe.png)
- Scribe V2、Gemini 3 Flash 和 AssemblyAI 总体显示出最小的增量,其中Scribe V2显著优于其自身的L2基线,表明其对双语输入具有真正的鲁棒性。
- 语码转换的影响也遵循直观模式:高性能系统相对于单语基线仅产生很小的惩罚,而排名较低的模型则退化得更严重,这表明语码转换主要暴露了模型鲁棒性的差异,而非统一提高了所有模型的难度。
- 所有语言对都出现了一致的结构模式:绿色条(相对于英语的成本)几乎总是大于红色条(相对于L2的成本),这是预期的——对于大多数模型来说,L2基线本身比英语更难,因此以它为基准时,净切换惩罚更小。最明显的异常值是Whisper,它相对于英语表现出最大的退化,在德语-英语上峰值达到+0.85。它也是唯一一个在语码转换语音上表现优于单语L2的模型——这直接源于其默认进行翻译的行为,完全绕过了矩阵语言。
https://huggingface.co/blog/ServiceNow-AI/code-switching#c-how-does-code-switching-break-asr-systemsC. 语码转换如何导致ASR系统出错?
现在我们知道了语码转换可能导致模型犯错,接下来我们探究与这些错误相关的具体条件。为了解决这个问题,我们拟合了一个两部分模型:
- 首先,我们使用逻辑回归来询问哪些变量与至少一个转录错误的发生相关。
- 其次,在至少发生一个错误的前提下,我们使用普通最小二乘(OLS)回归来检验哪些变量与错误幅度相关。
这种两部分方法让我们能够区分使错误更可能发生的因素,以及一旦错误发生,影响其大小的因素。两个步骤都包含相同的预测变量:(1)话语中语言切换的次数,以及(2)话语的语码混合指数(CMI)——即次要语言词汇相对于矩阵语言的比例,遵循Gambäck和Das (https://aclanthology.org/W14-5152.pdf) 的定义。我们还加入了话语长度作为控制变量,因为较长的话语提供了更多出错的机会。
https://huggingface.co/blog/ServiceNow-AI/code-switching#variables-associated-with-transcription-errors与转录错误相关的变量
从模型的第一部分,我们发现话语中的语言切换次数是与转录错误是否发生最一致的预测变量。每次语言切换似乎都为转录过程增加了一个可能失败的机会。这种关系在法语-英语语言对中尤为显著,七个模型中有六个表现出这种关系。其他预测
相似文章
商业ASR系统在代码切换语音上的基准测试:阿拉伯语、波斯语和德语
本文提出了一个基准测试,评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能,使用两阶段管道为每个语言对选择300个样本,并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER(13.2%)和最高的BERTScore(0.936),并提供公开数据集。
迈向真正多语言ASR:将代码切换ASR泛化到未见过的语言对
本文研究了从有限的已见语言对学到的代码切换ASR能力是否可以通过模型合并和域泛化方法泛化到未见过的语言对,结果发现只有有限的迁移。
@MaxForAI: 如果你在做语音Agent,你应该试一下这个项目 来自南洋理工、新国立和上海 AI Lab的团队发布了:Mega-ASR 这个完全开源的ASR基于 Qwen3-ASR构建,目的是打破长期困扰ASR的在嘈杂、混响或其他受损现实环境中表现的瓶颈…
南洋理工、新国立和上海 AI Lab 联合发布 Mega-ASR,一个基于 Qwen3-ASR 构建的完全开源 ASR 模型,通过 Voices-in-the-Wild-2M 数据集和渐进式声学到语义优化,在真实世界嘈杂环境中实现最高 30% 的相对词错误率下降,且仅 1.7B 参数可在消费级硬件高效推理。
语码转换信息检索:基准、分析与现有检索器的局限
研究者发布 CSR-L 与 CS-MTEB 基准,发现语码转换查询使 IR 系统性能下降高达 27%,并揭示嵌入空间 divergence 是当前多语言技术无法修复的根本原因。
Voice of India:面向印度真实场景的大规模语音识别基准
研究者发布 Voice of India,一个包含 536 小时、覆盖 15 种印度语言和 139 个区域集群的即兴电话对话闭源基准,揭示地理与人口统计学层面的 ASR 性能差异。