向 Open ASR Leaderboard 添加反 Benchmaxxing 机制

Hugging Face Blog 产品

摘要

Hugging Face 宣布向 Open ASR Leaderboard 引入来自 Appen 和 DataoceanAI 的私有高质量数据集,以防止 benchmaxxing 和测试集污染,同时保留公开数据用于默认的平均 WER 计算。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:58

为 Open ASR Leaderboard 添加“刷榜免疫剂”

来源:https://huggingface.co/blog/open-asr-leaderboard-private-data

返回文章 (https://huggingface.co/blog)

  • 新的高质量私有数据集 (https://huggingface.co/blog/open-asr-leaderboard-private-data#new-high-quality-private-datasets)
  • 如何在此数据上评估我的模型? (https://huggingface.co/blog/open-asr-leaderboard-private-data#how-can-i-evaluate-my-model-on-this-data)
  • 在数据提供方数据上训练过的模型是否有优势? (https://huggingface.co/blog/open-asr-leaderboard-private-data#do-models-trained-on-the-data-providers-have-an-advantage)
  • 下一步计划? (https://huggingface.co/blog/open-asr-leaderboard-private-data#whats-next)

“当一项指标成为目标时,它就不再是一项好指标。”(古德哈特定律)

TLDR:Appen Inc. (https://huggingface.co/AppenAIResearch) 和 DataoceanAI (https://huggingface.co/DataoceanAI1) 提供了覆盖多种口音的脚本式和对话式英语高质量 ASR 数据集。为避免刷榜(benchmaxxing)或测试集污染等潜在风险,我们将对这些数据集保密,以实现对多任务性能的高质量评估。

我们暂不更新平均 WER:默认情况下,排行榜的平均 WER 仍仅基于公开数据集计算。您可以选择使用切换按钮将私有数据集纳入计算,查看其影响 👀


自 2023 年 9 月上线以来,Open ASR Leaderboard (https://huggingface.co/spaces/hf-audio/open_asr_leaderboard) 的访问量已超过 71 万次。社区对语音识别持续推动的热情让我们深受鼓舞 🗣️

有两个词可以概括维护 Open ASR Leaderboard 这类基准测试的目标(以及挑战):

  1. 标准化:不同模型在使用方式和输出格式上可能存在差异,例如是否包含标点符号和大小写。数据集也面临同样挑战,结构各异。为此,所有测试集已整合到 Hub 上的单一数据集 (https://huggingface.co/datasets/hf-audio/open-asr-leaderboard) 中,便于访问和预览。此外,为标准化模型输出和数据集文本,我们使用了一个标准化工具 (https://github.com/huggingface/open_asr_leaderboard/blob/0009f5fe216d63eea809f9849f4d4534c6ab341e/normalizer/normalizer.py#L528),该工具(除其他功能外)可去除标点和大小写,并转换为美式拼写。它基于 Whisper (https://github.com/openai/whisper) 的标准化工具。
  2. 开放性:UI 代码 (https://huggingface.co/spaces/hf-audio/open_asr_leaderboard/tree/main) 和评估脚本 (https://github.com/huggingface/open_asr_leaderboard) 均为开源。这不仅有助于纳入新模型,还能通过社区反馈和贡献提升评估流程的质量。

标准化和开放性对于有意义的基准测试至关重要,但它们也使基准测试更容易受到针对基准的优化(“benchmaxxing”)影响——即模型在排行榜上表现提升,但并未在真实场景鲁棒性方面获得相应改进。随着模型和应用场景的不断演进,Open ASR Leaderboard 将持续纳入高质量数据集和新的评估设置,以更好地反映真实世界性能,并增强对针对基准优化的抵御能力。

正如我们在报告 (https://arxiv.org/abs/2510.06961) 中讨论的,不存在单一的“万能“ ASR 模型:有些在美式英语上表现更好,有些在多元口音和多语言场景中更优,还有些针对速度或对话式音频进行了优化。不同应用对能力的优先级也不同,因此某一维度表现稍逊的模型未必整体更差。Open ASR Leaderboard 的目标是捕捉这些细微差别,提供更全面的 ASR 性能视角。

新的高质量私有数据集

为此,我们与 Appen Inc. 和 DataoceanAI 合作,精心筛选了用于 ASR 基准测试的高质量数据集。以下是各数据分集的详细信息。

数据集口音时长 [小时]男性 (%) / 女性 (%)风格转录
Appen Scripted AU澳大利亚1.4249 / 51朗读带标点,区分大小写
Appen Scripted CA加拿大1.5352 / 48朗读带标点,区分大小写
Appen Scripted IN印度1.0249 / 51朗读带标点,区分大小写
Appen Scripted US美式1.4549 / 51朗读带标点,区分大小写
Appen Conversational IN印度1.3751 / 49对话,自发带标点,含不流畅表达
Appen Conversational US003美式1.6449 / 51对话,自发带标点,区分大小写,含不流畅表达
Appen Conversational US004美式1.6549 / 51对话,自发带标点,含不流畅表达
DataoceanAI Scripted US美式2.4354 / 46朗读带标点,区分大小写(专有名词),含不流畅表达
DataoceanAI Scripted GB英式2.4347 / 53朗读带标点,含不流畅表达
DataoceanAI Conversational US美式8.82不适用对话,自发带标点,含不流畅表达
DataoceanAI Conversational GB英式5.96不适用对话,自发带标点,含不流畅表达

以下是展示内容多样性的音频样本(脚本式、对话式、缩写、不流畅表达、专有名词)。

虽然私有数据集听起来与开放精神相悖,但我们认为纳入此类数据集将提升 Open ASR Leaderboard 的可信度,因为它们被用于刷榜的可能性更低——无论是模型开发者直接使用公开测试集,还是试图寻找与特定数据集高度相似的训练数据来提升宏观平均分。

借助这些数据集,我们还能提供针对性指标,凸显受控且往往已趋饱和的场景(脚本式、美式口音)与更细致条件(对话式、非美式口音)之间的差距和偏差。以下是新“Private data“标签页的截图。

thumbnail

以下是各列的计算方式:

  • “Average WER” 计算各数据提供方平均值的宏观平均,使其权重相等。
  • “Avg Scripted” 对所有脚本式数据集进行宏观平均。
  • “Avg Conversational” 对所有对话式数据集进行宏观平均。
  • “Avg US” 对所有美式口音数据集进行宏观平均。
  • “Avg non-US” 对所有非美式口音数据集进行宏观平均。

我们有意不提供每个分集的单独分数,以避免模型开发者通过针对特定数据提供方或口音优化来提升分数。

如何在此数据上评估我的模型?

让您的模型加入 Open ASR Leaderboard,我们将运行评估!与之前一样,将模型添加到排行榜的流程在 Open ASR Leaderboard GitHub (https://github.com/huggingface/open_asr_leaderboard) 上进行:

  1. 提交 pull request,会出现一个模型检查清单 (https://github.com/huggingface/open_asr_leaderboard/blob/main/.github/PULL_REQUEST_TEMPLATE.md#new-model-checklist)。与之前一样,您需要报告在公开数据集上的结果。
  2. 我们将验证公开数据集上的结果,并在私有数据集上计算指标。
  3. 确认我们获得的结果。

在等待模型被添加到 Open ASR Leaderboard 期间,您可以通过在模型卡片中添加类似这样的 YAML 文件 (https://huggingface.co/CohereLabs/cohere-transcribe-03-2026/blob/main/.eval_results/open_asr_leaderboard.yaml) 来自行报告在公开数据集上的指标。您的模型将随后出现在数据集页面 (https://huggingface.co/datasets/hf-audio/open-asr-leaderboard) 上的(未经验证的)排行榜中(见下方截图)。关于这种去中心化评估方法的更多内容可在此阅读 (https://huggingface.co/blog/community-evals)。

thumbnail

在数据提供方数据上训练过的模型是否有优势?

可能会有。我们已要求 Appen 和 DataoceanAI 不向客户提供此数据。但即使他们不提供完全相同的数据,来自相似分布的数据仍可能帮助模型在相应的评估集上表现更好(类似于通过针对公开集中的挑战性任务进行优化来刷榜)。为此,拥有多个数据提供方可以平衡模型因使用某一方数据而可能获得的优势。我们也欢迎更多数据提供方和评估集加入“Private data“标签页!

此外,为确保私有集不影响模型排名,我们已将平均 WER 的默认设置设为不包含私有集的宏观平均

在下方截图中,您可以看到“Private data“处于关闭状态。这意味着跨数据集的宏观平均不包含它。

thumbnail

只需开启“Private data“分集,即可将其纳入宏观平均。

thumbnail

“Rank Δ” 列显示相对于默认宏观平均配置,排名发生的变化。包含或排除公开数据集也会改变宏观平均,使用户能够根据与其应用最相关的使用场景和数据分布定制评估。

下一步计划?

我们很期待听到社区对新赛道和数据集切换功能的反馈,了解这些功能如何帮助用户识别最符合其应用的模型。我们也在研究更能反映真实世界噪声条件的评估方法,敬请期待相关消息 😉

在准备私有评估集时,我们格外注意确保跨数据集音频和转录质量的一致性,包括开发工具来识别具有挑战性的情况,如低信噪比条件或转录不匹配,因为这些因素会显著影响 WER。更多内容将在未来的文章中介绍!

相似文章

FFASR排行榜发布:真实场景下的ASR评测

Hugging Face Blog

介绍FFASR排行榜,这是一个开放、社区驱动的基准测试,用于在真实远场声学条件下评估自动语音识别模型,突显了近场和远场场景之间的显著性能差距。

介绍 HealthBench

OpenAI Blog

OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。

ResearchClawBench:面向端到端自主科学研究的基准测试

Hugging Face Daily Papers

ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。

商业ASR系统在代码切换语音上的基准测试:阿拉伯语、波斯语和德语

arXiv cs.CL

本文提出了一个基准测试,评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能,使用两阶段管道为每个语言对选择300个样本,并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER(13.2%)和最高的BERTScore(0.936),并提供公开数据集。