商业ASR系统在代码切换语音上的基准测试:阿拉伯语、波斯语和德语
摘要
本文提出了一个基准测试,评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能,使用两阶段管道为每个语言对选择300个样本,并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER(13.2%)和最高的BERTScore(0.936),并提供公开数据集。
查看缓存全文
缓存时间: 2026/05/20 08:23
# 商业ASR系统在代码切换语音上的基准评测:阿拉伯语、波斯语和德语 来源:https://arxiv.org/abs/2605.19069 查看PDF (https://arxiv.org/pdf/2605.19069) > 摘要:代码切换——即在单次话语中自然交替使用两种语言——是自动语音识别(ASR)中最具挑战性且研究最不充分的场景之一。现有的商业ASR基准测试主要评估纯净的单语音频,并报告单一的词错误率(WER)指标,这无法让从业者了解实际的多语言性能。我们提出了一项基准测试,评估五家商业ASR提供商在四种语言对上的表现:埃及阿拉伯语-英语、沙特阿拉伯语(纳季迪/希贾兹)-英语、波斯语(法尔西)-英语以及德语-英语。每个数据集包含300个样本,通过两阶段管道筛选:先使用启发式过滤器对转录本的五种结构型代码切换信号进行评分,再由GPT-4o和Gemini 1.5 Pro集成模型在六个语言维度上对候选样本进行评分。相比全面评分,该管道将LLM评分成本降低了约91%。我们使用WER和BERTScore两个指标评估系统,并论证对于阿拉伯语和波斯语言对,由于音译变体导致WER惩罚语义正确的转录,BERTScore是更可靠的指标。ElevenLabs Scribe v2在所有四种语言对上实现了最低的WER(总体13.2%;埃及阿拉伯语13.1%),并在BERTScore上领先(总体0.936)。我们进一步证明,基于难度的分层分析揭示了被总体平均值掩盖的性能差距,并且BERT嵌入投影证实了参考文本与假设之间在表面书写差异下的语义接近性。基准数据集公开于以下链接:this https URL (https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch)。 ## 提交历史 来自:Sajjad Abdoli [查看电子邮件 (https://arxiv.org/show-email/5ada2abb/2605.19069)] **[v1]** 2026年5月18日星期一 19:50:44 UTC (748 KB)
相似文章
语码转换信息检索:基准、分析与现有检索器的局限
研究者发布 CSR-L 与 CS-MTEB 基准,发现语码转换查询使 IR 系统性能下降高达 27%,并揭示嵌入空间 divergence 是当前多语言技术无法修复的根本原因。
转录儿童语音:ASR性能与获取可靠的正字法转写
这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。
使用滚动缓冲区和单语模型的实时多语言ASR [P]
一种基于路由的实时多语言ASR方法,使用较小的单语模型并配备回滚机制来处理语言切换,在跨语句代码切换上实现了约13%的词错误率,并将系统开源。
MUSCAT:多语言科学对话基准
MUSCAT是一个新的多语言科学对话基准数据集,用于评估ASR系统在具有挑战性的多语言场景中的表现,包括代码混合、特定领域词汇和混合语言输入。该数据集包含使用不同语言的说话者之间关于科学论文的双语讨论,结果表明当前的最先进系统在应对这些多语言挑战时存在困难。
多场景长篇语音生成的综合基准评测
Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。