商业ASR系统在代码切换语音上的基准测试:阿拉伯语、波斯语和德语

arXiv cs.CL 论文

摘要

本文提出了一个基准测试,评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能,使用两阶段管道为每个语言对选择300个样本,并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER(13.2%)和最高的BERTScore(0.936),并提供公开数据集。

arXiv:2605.19069v1 公告类型: 新 摘要: 代码切换——同一话语中两种语言的自然交替——是自动语音识别(ASR)中最具挑战性且研究不足的条件之一。现有的商业ASR基准主要评估干净的单语言音频,并报告单一的词错误率(WER)数字,这很少能告诉实践者关于现实世界多语言性能的信息。我们提出了一个基准测试,评估了五个商业ASR提供商在四个语言对上的表现:埃及阿拉伯语-英语、沙特阿拉伯语(纳吉迪/希贾兹)-英语、波斯语(法尔西)-英语和德语-英语。每个数据集包含300个样本,通过两阶段管道选择:一个启发式过滤器根据五个结构代码切换信号对转录进行评分,然后是GPT-4o和Gemini 1.5 Pro集成对六个语言维度的候选进行评分。该管道相对于穷举评分将LLM评分成本降低了约91%。我们在WER和BERTScore上评估系统,认为BERTScore对于阿拉伯语和波斯语对是更可靠的指标,因为转写变体导致WER惩罚语义正确的转录。ElevenLabs Scribe v2在所有四个语言对上实现了最低的WER(整体13.2%;埃及阿拉伯语13.1%),并在BERTScore上领先(整体0.936)。我们进一步证明,按难度分层分析揭示了被总体平均值掩盖的性能差距,并且BERT嵌入投影证实了参考和假设之间的语义接近性,尽管表面脚本不同。基准数据集公开可访问于 https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch 。
查看原文
查看缓存全文

缓存时间: 2026/05/20 08:23

# 商业ASR系统在代码切换语音上的基准评测:阿拉伯语、波斯语和德语
来源:https://arxiv.org/abs/2605.19069
查看PDF (https://arxiv.org/pdf/2605.19069)

> 摘要:代码切换——即在单次话语中自然交替使用两种语言——是自动语音识别(ASR)中最具挑战性且研究最不充分的场景之一。现有的商业ASR基准测试主要评估纯净的单语音频,并报告单一的词错误率(WER)指标,这无法让从业者了解实际的多语言性能。我们提出了一项基准测试,评估五家商业ASR提供商在四种语言对上的表现:埃及阿拉伯语-英语、沙特阿拉伯语(纳季迪/希贾兹)-英语、波斯语(法尔西)-英语以及德语-英语。每个数据集包含300个样本,通过两阶段管道筛选:先使用启发式过滤器对转录本的五种结构型代码切换信号进行评分,再由GPT-4o和Gemini 1.5 Pro集成模型在六个语言维度上对候选样本进行评分。相比全面评分,该管道将LLM评分成本降低了约91%。我们使用WER和BERTScore两个指标评估系统,并论证对于阿拉伯语和波斯语言对,由于音译变体导致WER惩罚语义正确的转录,BERTScore是更可靠的指标。ElevenLabs Scribe v2在所有四种语言对上实现了最低的WER(总体13.2%;埃及阿拉伯语13.1%),并在BERTScore上领先(总体0.936)。我们进一步证明,基于难度的分层分析揭示了被总体平均值掩盖的性能差距,并且BERT嵌入投影证实了参考文本与假设之间在表面书写差异下的语义接近性。基准数据集公开于以下链接:this https URL (https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch)。

## 提交历史

来自:Sajjad Abdoli [查看电子邮件 (https://arxiv.org/show-email/5ada2abb/2605.19069)] **[v1]** 2026年5月18日星期一 19:50:44 UTC (748 KB)

相似文章

转录儿童语音:ASR性能与获取可靠的正字法转写

arXiv cs.CL

这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。

MUSCAT:多语言科学对话基准

arXiv cs.CL

MUSCAT是一个新的多语言科学对话基准数据集,用于评估ASR系统在具有挑战性的多语言场景中的表现,包括代码混合、特定领域词汇和混合语言输入。该数据集包含使用不同语言的说话者之间关于科学论文的双语讨论,结果表明当前的最先进系统在应对这些多语言挑战时存在困难。

多场景长篇语音生成的综合基准评测

Hugging Face Daily Papers

Swanbench-Speech是一个综合基准评测,用于在多样化场景下评估长篇语音生成,采用涵盖声学、语义和表现力的多维度指标,揭示了当前模型的局限性。