商业ASR系统在代码切换语音上的基准测试：阿拉伯语、波斯语和德语

arXiv cs.CL 2026/05/20 04:00 论文

asr code-switching benchmark multilingual speech-recognition bertscore arabic-persian-german

摘要

本文提出了一个基准测试，评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能，使用两阶段管道为每个语言对选择300个样本，并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER（13.2%）和最高的BERTScore（0.936），并提供公开数据集。

arXiv:2605.19069v1 公告类型: 新摘要: 代码切换——同一话语中两种语言的自然交替——是自动语音识别（ASR）中最具挑战性且研究不足的条件之一。现有的商业ASR基准主要评估干净的单语言音频，并报告单一的词错误率（WER）数字，这很少能告诉实践者关于现实世界多语言性能的信息。我们提出了一个基准测试，评估了五个商业ASR提供商在四个语言对上的表现：埃及阿拉伯语-英语、沙特阿拉伯语（纳吉迪/希贾兹）-英语、波斯语（法尔西）-英语和德语-英语。每个数据集包含300个样本，通过两阶段管道选择：一个启发式过滤器根据五个结构代码切换信号对转录进行评分，然后是GPT-4o和Gemini 1.5 Pro集成对六个语言维度的候选进行评分。该管道相对于穷举评分将LLM评分成本降低了约91%。我们在WER和BERTScore上评估系统，认为BERTScore对于阿拉伯语和波斯语对是更可靠的指标，因为转写变体导致WER惩罚语义正确的转录。ElevenLabs Scribe v2在所有四个语言对上实现了最低的WER（整体13.2%；埃及阿拉伯语13.1%），并在BERTScore上领先（整体0.936）。我们进一步证明，按难度分层分析揭示了被总体平均值掩盖的性能差距，并且BERT嵌入投影证实了参考和假设之间的语义接近性，尽管表面脚本不同。基准数据集公开可访问于 https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch 。

查看原文

查看缓存全文

缓存时间: 2026/05/20 08:23

# 商业ASR系统在代码切换语音上的基准评测：阿拉伯语、波斯语和德语
来源：https://arxiv.org/abs/2605.19069
查看PDF (https://arxiv.org/pdf/2605.19069)

> 摘要：代码切换——即在单次话语中自然交替使用两种语言——是自动语音识别（ASR）中最具挑战性且研究最不充分的场景之一。现有的商业ASR基准测试主要评估纯净的单语音频，并报告单一的词错误率（WER）指标，这无法让从业者了解实际的多语言性能。我们提出了一项基准测试，评估五家商业ASR提供商在四种语言对上的表现：埃及阿拉伯语-英语、沙特阿拉伯语（纳季迪/希贾兹）-英语、波斯语（法尔西）-英语以及德语-英语。每个数据集包含300个样本，通过两阶段管道筛选：先使用启发式过滤器对转录本的五种结构型代码切换信号进行评分，再由GPT-4o和Gemini 1.5 Pro集成模型在六个语言维度上对候选样本进行评分。相比全面评分，该管道将LLM评分成本降低了约91%。我们使用WER和BERTScore两个指标评估系统，并论证对于阿拉伯语和波斯语言对，由于音译变体导致WER惩罚语义正确的转录，BERTScore是更可靠的指标。ElevenLabs Scribe v2在所有四种语言对上实现了最低的WER（总体13.2%；埃及阿拉伯语13.1%），并在BERTScore上领先（总体0.936）。我们进一步证明，基于难度的分层分析揭示了被总体平均值掩盖的性能差距，并且BERT嵌入投影证实了参考文本与假设之间在表面书写差异下的语义接近性。基准数据集公开于以下链接：this https URL (https://huggingface.co/datasets/Perle-ai/ASR_Code_Switch)。

## 提交历史

来自：Sajjad Abdoli [查看电子邮件 (https://arxiv.org/show-email/5ada2abb/2605.19069)] **[v1]** 2026年5月18日星期一 19:50:44 UTC (748 KB)

商业ASR系统在代码切换语音上的基准测试：阿拉伯语、波斯语和德语

相似文章

语码转换信息检索：基准、分析与现有检索器的局限

转录儿童语音：ASR性能与获取可靠的正字法转写

使用滚动缓冲区和单语模型的实时多语言ASR [P]

MUSCAT：多语言科学对话基准

多场景长篇语音生成的综合基准评测

提交意见反馈