BlasBench:爱尔兰语语音识别开放基准
摘要
BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准,采用爱尔兰语感知的文本规范化,保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试,揭示了显著的泛化差距,并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。
arXiv:2604.10736v2 公告类型:替换
摘要:现有的多语言基准虽然包含爱尔兰语,但只是众多语言之一,且没有应用爱尔兰语感知的文本规范化,导致可靠和可重复的 ASR 比较成为不可能。我们推出 BlasBench,一个开放的评估框架,提供独立的爱尔兰语感知规范化器,保留长音符、浊化和日蚀;提供可重复的计分框架和为所有评估运行发布的逐句预测。我们通过在 Common Voice ga-IE 和 FLEURS ga-IE 上对四个架构家族的 12 个系统进行基准测试来试验这一方法。所有 Whisper 变体都因插入驱动的幻觉而超过 100% WER。Microsoft Azure 在 Common Voice 上达到 22.2% WER,在 FLEURS 上达到 57.5%;表现最佳的开源模型 Omnilingual ASR 7B 分别达到 30.65% 和 39.09%。在 Common Voice 上微调的模型在转移到 FLEURS 时性能下降 33-43 个百分点,而大规模多语言模型仅下降 7-10 个百分点——这是单数据集评估所无法发现的泛化差距。
查看缓存全文
缓存时间: 2026/04/20 08:32
# 爱尔兰语语音识别开放基准 github.com/jyoutir/blasbench 来源: https://arxiv.org/html/2604.10736 Jyoutir Raj 独立研究员 jyoutirraj@gmail\.com&John Conway 独立研究员 john@blasapp\.com ###### 摘要 现有的多语言基准虽然包含爱尔兰语,但涵盖数十种语言,却未应用爱尔兰语特定的文本规范化,使得可靠且可重复的ASR比较成为不可能。我们推出BlasBench,一个开放式评估工具,提供独立的爱尔兰语感知规范化器,保留长音符、软化音和蚀合音;可重复的计分工具和所有评估运行的逐句预测。我们通过在Common Voice ga-IE和FLEURS ga-IE上对12个系统进行基准测试来试点此项工作,涵盖四个架构族。所有Whisper变体通过插入驱动的幻觉超过100% WER。Microsoft Azure在Common Voice上达到22.2% WER,在FLEURS上达到57.5%;最佳开源模型Omnilingual ASR 7B分别达到30.65%和39.09%。在Common Voice上微调的模型在转向FLEURS时性能下降33–43点,而大规模多语言模型仅下降7–10点——这是单数据集评估无法发现的泛化差距。 BlasBench: 爱尔兰语语音识别开放基准 github\.com/jyoutir/blasbench (https://github.com/jyoutir/blasbench) Jyoutir Raj††thanks:通信作者\.独立研究员jyoutirraj@gmail\.comJohn Conway独立研究员john@blasapp\.com ## 1 引言 最先进的多语言系统在爱尔兰语的分布外音频上表现不佳。Microsoft Azure在读音语音(Common Voice ga-IE)上达到22.2% WER,在更自然的FLEURS ga-IE上达到57.5% WER。我们评估的每个Whisper变体都产生超过参考文本包含的令牌数,在两个数据集上都超过100% WER(表1、2)。爱尔兰语呈现真实的难度:初始辅音变异、蚀合音和编码语法对比的拼写系统意味着语言无关的规范化会无声地丢弃语言学上有意义的变异。 问题不在于没有人研究过爱尔兰语ASR。都柏林三一学院的ABAIR小组进行了持续的研究计划,其Fotheidil系统达到10.9% WER。Qian等人(2024)在爱尔兰语上微调Whisper。HuggingFace上存在社区wav2vec2微调模型。IWSLT共享任务产生了爱尔兰语-英语语音翻译系统。多语言基准——FLEURS、MMS、ML-SUPERB——在数十或数百种语言中包含爱尔兰语。这些工作跨越了架构族和数据机制,但尚未被置于共同基础之上。 差距在方法论而非经验上。ABAIR的最佳结果基于私有的MíleGlór数据;其公布的Common Voice和FLEURS-R数据仅涵盖他们自己的系统。社区模型使用不同的Common Voice版本和不同的规范化器自我报告。多语言基准包含爱尔兰语但没有爱尔兰语特定的规范化或有针对性的分析。ML-SUPERB和XTREME-S包含爱尔兰语数据点但不比较爱尔兰语特定的端用户ASR系统。我们未能找到之前存在的开放、爱尔兰语特定的跨架构族端用户ASR系统比较在共享爱尔兰语感知评估协议下的工作。 我们推出BlasBench,爱尔兰语ASR的开放基准和评估工具。该工具在计分前应用爱尔兰语感知的文本规范化,使得反映变异和方言的正字法变体不会人为地增加错误率。12个模型比较跨越商业、大规模多语言和微调系统,构成该基准的首次使用;可重复的语言感知计分也是任何需要稳定信号的自动化研究管道的先决条件。乌尔都语和苏格兰盖尔语的专门低资源基准为各自的语言提出了同样的理由;BlasBench将其带到爱尔兰语。 ## 2 BlasBench基准 ### 2.1 任务和范围 BlasBench评估爱尔兰语语音转文本系统。给定爱尔兰语音频,系统产生爱尔兰语文本;基准使用爱尔兰语感知规范化对输出与参考转录进行评分,计算WER和CER。 ### 2.2 数据集 两个公开数据集,用于测量分布内和分布外性能: - •Common Voice 25.0 ga-IE(2020):874个社区录制的读音语言测试句子在发布的BlasBench评估切片中;句子计数在发布的运行元数据中记录。我们评估的大多数wav2vec2微调模型在较早的CV版本上训练。 - •FLEURS ga-IE(2022):842个测试句子在发布的BlasBench评估切片中;句子计数在发布的运行元数据中记录。语音是由专业录制的母语使用者读音。根据公开的模型卡,我们基准中的任何模型都未报告在其训练组合中包含FLEURS。 发布的预测文件和运行元数据使每个评估切片都可审计。使用两个具有不同录制条件的数据集是基准设计的核心:它暴露了单数据集评估看不到的泛化失败(§5.2)。 ### 2.3 评估管道 音频输入(16kHz)→ 模型包装器(任何架构)→ 爱尔兰语感知规范化器 → 全局WER / CER、Bootstrap 95% CI、原始文本 图1:BlasBench评估管道。爱尔兰语规范化器(高亮)是语言特定的组件。 管道(图1)分四个阶段进行: 1. 推理。音频通过模型包装器传递,返回原始文本。包装器API是标准化的:任何接受16kHz音频并返回字符串的系统都可以被评估。 2. 规范化。使用爱尔兰语感知管道规范化参考和假设(§2.4)。 3. 计分。WER和CER通过全局聚合计算:所有句子的总替换、插入和删除数除以总参考单位。这种语料库级方法避免了按句平均的偏差,与低资源基准测试工作中使用的惯例相匹配。 4. 置信区间。使用1,000次重新采样(固定种子42)计算Bootstrap 95% CI,在句子级错误计数处重新采样并重新计算全局聚合。每个报告点估计的CI与预测一起在每次运行的results.json中发布;表格为简洁起见显示点估计。 ### 2.4 爱尔兰语感知规范化 标准ASR规范化器将文本转换为小写、去除标点并折叠空白。最近关于多语言ASR评估的工作表明,语言无关的规范化可能会严重扭曲报告的错误率。对爱尔兰语来说,它破坏了语言学上有意义的信息。 爱尔兰语在五个元音上使用长音符(fadas):á、é、í、ó、ú。这些在音位上是对比的:*fear*"男人"对*féar*"草"。标准NFKD规范化会分解重音字符并可能去除组合重音。我们的规范化器首先应用NFC,确保长音符保留。 爱尔兰语也通过初始变异来标记语法。软化音:*bean*"女人"→ *bhean*"他的妻子"。蚀合音:*bean*→ *mbean*"女人们的"。我们的规范化器保留这些。 ABAIR的管道包括在Fotheidil内部使用的文本处理组件,但没有爱尔兰语ASR规范化器被独立发布。据我们所知,BlasBench是第一个为爱尔兰语ASR计分而专门发布的独立开源爱尔兰语ASR评估规范化器;未发布的内部工具可能存在。 ### 2.5 发布的工件 对于每个(模型、数据集)运行,BlasBench生成: - •逐句预测,包括样本ID、参考、假设、WER、CER - •汇总结果,包括S/I/D分解和Bootstrap CI - •运行元数据,记录数据集名称/分割/计数、模型身份、评估配置和软件版本 评估工具和发布的预测在标题下的存储库链接处可用。未来系统可以与这些预测进行比较,无需重新运行先前的模型。 ### 2.6 可重复性和可扩展性 添加新模型需要实现单个函数:给定16kHz音频,返回一个字符串。工具处理规范化、计分、CI计算和工件生成。 ## 3 评估的系统 我们评估了12个系统,跨越四个架构族。 **Whisper**(Radford等人,2023):编码器-解码器Transformer。爱尔兰语在Whisper的语言列表中缺失(v1、v2和v3中都缺失),因此这里的结果基本上是零样本。我们测试medium(769M)、large-v2(1.5B)、large-v3(1.5B)和large-v3-turbo(809M)。 **wav2vec2 CTC**:自监督XLS-R或XLSR-53编码器带CTC头部,由社区贡献者在爱尔兰语Common Voice上微调(315M–1B)。 **Meta多语言**:MMS-1B-All(1,107种语言);Omnilingual ASR (omniASR) LLM(Keren等人,2025),wav2vec2编码器带LLM启发的Transformer解码器,覆盖1,600+种语言,以300M、1B、3B和7B大小发布;我们测试300M和7B端点。 **商业**:Microsoft Azure语音服务(ga-IE语言环境)。 开源权重模型在单个NVIDIA H100 80GB SXM上通过RunPod运行(~6 GPU小时,~$25)。Azure通过API运行(~2026年4月价格约$5)。Whisper、wav2vec2、MMS和Azure运行都使用发布的工具;omniASR运行在撰写时使用了单独的fairseq2驱动程序,工具适配器待定。 ## 4 结果 表1和表2分别呈现两个数据集上的WER、CER和按错误类型分解。 表1:Common Voice ga-IE(874个句子)。ABAIR是自报告的(Lonergan等人,2025),使用不同的规范化器。Whisper结果是零样本。类型列:*open* = 权重和训练数据公开;*open-w* = 权重公开,训练数据未完全披露;*API* = 商业云API;*closed* = 权重不可用。 | # | 模型 | 类型 | 架构 | WER↓ | sub | ins | del | CER↓ | ref | |---|---|---|---|---|---|---|---|---|---| | *ABAIR / Fotheidil* | *closed* | *TDNN-HMM* | *19.6** | — | — | — | — | 1 | | azure / speech-ga-IE | API | 专有 | 22.2 | 15.8 | 1.7 | 4.8 | 11.4 | 2 | | omniASR LLM 7B | open-w | w2v2+Trans | 30.6 | 25.0 | 2.5 | 3.2 | 14.6 | 3 | | Aditya3107 / xls-r-1b | open | w2v2 CTC | 32.4 | 26.4 | 1.7 | 4.3 | 12.8 | 4 | | omniASR LLM 300M | open-w | w2v2+Trans | 37.6 | 29.3 | 3.4 | 4.9 | 19.2 | 5 | | kingabzpro / xls-r-1b | open | w2v2 CTC | 45.8 | 38.2 | 3.6 | 4.0 | 18.9 | 6 | | jimregan / xlsr-53 | open | w2v2 CTC | 48.9 | 40.5 | 4.2 | 4.2 | 20.3 | 7 | | cpierse / xlsr-53 | open | w2v2 CTC | 49.4 | 41.5 | 3.9 | 4.0 | 21.0 | 8 | | mms-1b-all | open | w2v2 CTC | 54.2 | 44.1 | 2.8 | 7.4 | 21.2 | 9 | | whisper-large-v2 | open | enc-dec | 106.0 | 73.6 | 19.9 | 12.4 | 68.5 | 10 | | whisper-large-v3 | open | enc-dec | 125.6 | 78.8 | 33.1 | 13.7 | 85.6 | 11 | | whisper-medium | open | enc-dec | 129.3 | 76.2 | 40.6 | 12.5 | 91.8 | 12 | | whisper-large-v3-turbo | open | enc-dec | 225.6 | 83.1 | 128.8 | 13.7 | 159.7 | — | 表2:FLEURS ga-IE(842个句子)。ABAIR的44.5%是在FLEURS-R上,不是此测试集。 | # | 模型 | 类型 | 架构 | WER↓ | sub | ins | del | CER↓ | ref | |---|---|---|---|---|---|---|---|---|---| | *ABAIR / Fotheidil* | *closed* | *TDNN-HMM* | *44.5** | — | — | — | — | 1 | | omniASR LLM 7B | open-w | w2v2+Trans | 39.1 | 32.2 | 3.4 | 3.5 | 18.6 | 2 | | omniASR LLM 300M | open-w | w2v2+Trans | 47.7 | 38.4 | 4.9 | 4.4 | 24.1 | 3 | | azure / speech-ga-IE | API | 专有 | 57.5 | 21.5 | 3.5 | 32.5 | 43.8 | 4 | | mms-1b-all | open | w2v2 CTC | 61.6 | 51.9 | 3.2 | 6.5 | 26.0 | 5 | | Aditya3107 / xls-r-1b | open | w2v2 CTC | 75.8 | 62.1 | 6.2 | 7.5 | 36.0 | 6 | | kingabzpro / xls-r-1b | open | w2v2 CTC | 78.5 | 64.7 | 9.2 | 4.6 | 38.2 | 7 | | jimregan / xlsr-53 | open | w2v2 CTC | 83.0 | 68.2 | 9.8 | 5.0 | 40.8 | 8 | | cpierse / xlsr-53 | open | w2v2 CTC | 83.2 | 68.6 | 9.8 | 4.8 | 41.9 | 9 | | whisper-large-v2 | open | enc-dec | 102.8 | 78.2 | 19.8 | 4.8 | 59.6 | 10 | | whisper-medium | open | enc-dec | 134.1 | 86.5 | 43.1 | 4.4 | 87.3 | 11 | | whisper-large-v3 | open | enc-dec | 217.8 | 89.8 | 123.7 | 4.3 | 156.0 | 12 | | whisper-large-v3-turbo | open | enc-dec | 587.6 | 91.2 | 491.2 | 5.1 | 410.1 | — | ## 5 基准发现 ### 5.1 我们评估的Whisper变体在爱尔兰语上表现灾难性 所有四个Whisper变体在两个数据集上都超过100% WER,插入率为20–491%:解码器发出与输入无关的流畅英语(附录C)。v3比v2更差(125.6%对106.0% CV),turbo更差(FLEURS上587.6%)。Qian等人(2024)报告whisper-large-v3在FLEURS爱尔兰语上的WER为110.4%,与我们的结果在同一范围内;我们未找到v2→v3→turbo在爱尔兰语上单调回归的先前文档。 ### 5.2 Common Voice高估了性能 表3:跨语料库泛化差距。Δ = FLEURS−CV WER。多语言模型泛化;CV训练模型不泛化。 在Common Voice上微调的模型在FLEURS上性能下降33–43 WER点(表3)。Azure下降35点。具有大规模多语言预训练的模型仅下降7–10点。先前的工作已评估了跨语料库的情况,但这种差距的大小在单一工具下未被量化。仅Common Voice WER不是部署的可靠代理;BlasBench因此需要对至少两个数据集进行评估。 ### 5.3 开源–闭源差距 ABAIR的Fotheidil报告其最佳结果(私有MíleGlór上10.9% WER、Common Voice上19.6%、FLEURS-R上44.5%)使用包括RNNLM重新评分的完整管道;没有LM重新评分的M1声学模型单独报告Common Voice上23.7%。omniASR 7B在我们的规范化器下原始FLEURS上达到30.6%和39.1%。由于数据集和规范化器不同,
相似文章
Voice of India:面向印度真实场景的大规模语音识别基准
研究者发布 Voice of India,一个包含 536 小时、覆盖 15 种印度语言和 139 个区域集群的即兴电话对话闭源基准,揭示地理与人口统计学层面的 ASR 性能差异。
KoALa-Bench:评估大型音频语言模型在韩语语音理解与忠实度上的表现
KoALa-Bench 推出了一套聚焦韩语的基准测试,从六个维度评估大型音频语言模型,包括全新的语音忠实度指标与韩国本土文化内容。
RedBench:大型语言模型综合红队测试通用数据集
RedBench 引入了一个通用数据集,聚合了 37 个基准数据集,包含 29,362 个样本,涵盖 22 个风险类别和 19 个领域,用于实现大型语言模型的标准化和综合红队测试评估。该工作解决了现有红队测试数据集中的不一致问题,并提供了基准、评估代码和开源资源,用于评估 LLM 对对抗提示的鲁棒性。
LegalBench-BR:评估大语言模型在巴西法律判决分类上的基准
研究者发布首个公开基准 LegalBench-BR,用于评估大模型在巴西法律文本分类任务上的表现。实验表明,LoRA 微调的 BERTimbau 大幅超越 GPT-4o mini 与 Claude 3.5 Haiku。
@bclavie: 这可能是今年最好的IR发布。文本基准测试(过去)已失效,DL19/DL20/BEIR不再提供有价值…
一个新的IR基准发布解决了DL19/DL20/BEIR中文本基准测试失效的问题,使得在当前时代的训练方法中能够有意义地衡量改进。