超越单一真实标准：作为认识论不公的参考一元论在自动语音识别评估中的体现

arXiv cs.CL 2026/05/11 04:00 论文

speech-recognition evaluation-metrics epistemic-injustice accessibility aphasia fairness word-error-rate

摘要

本文批判了自动语音识别（ASR）评估中使用单一参考真实标准的做法，指出这会导致对失语症患者说话人的认识论不公。文章提出了一种新指标——认识论不公距离（EID），并提倡使用WER-Range（词错率范围）来考虑多样化的转录惯例。

arXiv:2605.07084v1 公告类型：新论文摘要：自动语音识别（ASR）评估将系统输出与真实标准转录文本进行比较，使用词错率（WER）量化两者之间的距离。然而，真实标准转录文本并非被“发现”的——而是由遵循特定惯例的人类标注员制作的，这些惯例编码了关于哪些语音特征重要的规范性假设。不同的惯例（逐字记录、非逐字记录、法律记录）会对相同的语音产生不同的转录文本，并对相同的 ASR 输出做出不同的评判。本文认为，参考一元论——强制将单一转录惯例作为真实标准——构成了认识论不公。失语症患者的语音包含具有临床意义的言语不流畅现象，当以将这些不流畅视为错误的“干净”参考标准进行评估时，他们处于系统性的不利地位。这种伤害不仅仅表现为性能差异，更在于评估基础设施缺乏解释资源，无法认可他们的贡献为合法。我们构建了一个哲学框架，引入了解释学鸿沟的概念，形式化了认识论不公距离（EID）以衡量参考一元论的成本，并利用 AphasiaBank 数据库通过实证演示表明，WER 会因定义真实标准的惯例不同而变化。我们提出了 WER-Range：报告在各类合法惯例下的性能表现，而非假定存在唯一正确的答案。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 06:45

# 超越单一地面实况：自动语音识别评估中的参照单一主义作为认知不公

**来源**: https://arxiv.org/html/2605.07084

**Anna Seo Gyeong Choi**
康奈尔大学信息科学系
通讯作者。电子邮件: [email protected]
部分工作是在 Rev AI 实习期间完成的。

**James Caverlee**
德克萨斯农工大学计算机科学系

**Miguel del Rio**
Rev AI
*这些作者贡献相同。*

**Corey Miller**
Tundra Technical Solutions
*这些作者贡献相同。*

**Hoon Choi**
江原国立大学文科部
*这些作者贡献相同。*

###### 摘要

自动语音识别（ASR）评估将系统输出与地面实况（ground truth）转录文本进行比对，词错率（WER）用于量化两者之间的距离。但地面实况转录文本并非被“发现”的——它们是由人类标注者遵循编码了关于哪些语音特征重要的规范性假设的惯例所产生的。不同的惯例（逐字转录、非逐字转录、法律转录）会对相同的语音产生不同的转录文本，并对相同的 ASR 输出做出不同的评判。本文认为，**参照单一主义**（reference monism）——即强制使用单一的转录惯例作为地面实况——构成了**认知不公**（epistemic injustice）。以失语症（aphasia）患者为例，他们的言语中包含具有临床意义的流利度障碍（disfluencies），当以将这些障碍视为错误的“干净”参照标准进行评估时，他们受到系统性的不利对待。这种危害不仅仅是性能差异，更在于评估基础设施缺乏解释资源来认可他们的贡献是合法的。我们开发了一个哲学框架，引入了**诠释学差距**（hermeneutical gap）的概念，形式化了**认知不公距离**（Epistemic Injustice Distance, EID）以衡量参照单一主义的成本，并利用 AphasiaBank 数据集通过实证演示证明，WER 会因定义地面实况的惯例不同而变化。我们提出了 **WER-Range**：报告在不同合法惯例下的性能表现，而不是假设存在唯一正确的答案。

## 1 引言

我们应该如何评估自动语音识别（ASR）系统？ASR 系统介入了对基本服务的访问——语音助手转录查询，临床记录系统记录患者就诊情况，无障碍工具为讲座和会议添加字幕。随着这些系统成为基础设施，其评估实践决定了谁的言语被原样视为“可识别”，而谁的言语则被视为需要解决的问题。

标准方法论看起来很简单：系统产生一个假设；评估者将其与地面实况转录文本进行比较；词错率（WER）量化两者之间的距离。数值越低越好。这一框架构成了基准构建、公平性审计和部署决策的基础 [17](https://arxiv.org/html/2605.07084#bib.bib17),[37](https://arxiv.org/html/2605.07084#bib.bib37),[12](https://arxiv.org/html/2605.07084#bib.bib12)。^1^

^1^ WER 主导了当代 ASR 评估，这从其作为 Open ASR Leaderboard 上唯一的质量指标的地位可以得到印证：https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

我们特别关注**评估实践**：研究人员、审计人员和开发者如何评估系统质量。这不同于关于 ASR 系统应为最终用户生成何种转录文本的问题——系统可以合法地出于无障碍应用的目的输出干净文本，同时在评估时针对多种参照惯例进行测试，以确保对不同说话者群体的公平评估。

但地面实况转录文本并非被发现，而是被建构的——这是关于知识本质的康德式洞见 [35](https://arxiv.org/html/2605.07084#bib.bib35),[36](https://arxiv.org/html/2605.07084#bib.bib36)：我们并不是被动地将语音事件作为客观事实来感知，而是通过解释框架主动地构成它们。地面实况转录文本是由遵循惯例的人类标注者产生的，这些惯例编码了关于语音特征重要性的规范性假设。正如 Bucholtz [6](https://arxiv.org/html/2605.07084#bib.bib6) 所论证的，转录本质上是政治性的：关于保留、规范化或排除什么的选择反映并再生产了说话者与机构之间的权力关系。

逐字转录保留填充词、假启动和修复；非逐字转录去除这些内容，产生“干净”的文本；法律转录保留对证据目的相关的模糊语。^2^

^2^ 这些惯例类型遵循典型的转录标准。参见 Rev AI 转录指南 https://www.rev.com/resources/verbatim-transcription 和法律转录标准 https://www.legallanguage.com/legal-articles/the-4-rules-of-legal-transcription/。

每种惯例都服务于合法的目的，对同一话语产生不同的转录文本，并对相同的 ASR 输出做出不同的评判。

**图 1：参照单一主义与多元主义及其指标后果。**
**顶部**：在参照单一主义下，单一强制惯例 $r(p^\star)$ 产生一个 WER 分数（9.81%），将一种解释选择自然化为地面实况，并将合法的多元性坍缩为一个单一数值。
**底部**：在参照多元主义下，同一话语在三种不同惯例下产生三个转录文本——非逐字 $r(p_N)$ 去除所有流利度障碍；逐字 $r(p_V)$ 完全按口语保留填充词、片段和修复；法律 $r(p_L)$ 保留犹豫标记但规范化修复——这些共同输入到 WER-Range 中，产生区间 [9.81%, 17.38%]，使“准确性”对惯例的依赖性变得可见。
相同的 ASR 假设 $h(x)$ 和音频 $x$ 构成了两种计算的基础；只有评估基础设施不同。

本文认为，**参照单一主义**——强制使用单一的转录惯例作为地面实况——构成了认知不公 [22](https://arxiv.org/html/2605.07084#bib.bib22)。以失语症患者为例，他们的言语特征是具有临床意义的流利度障碍；当以将这些障碍视为错误的“干净”参照标准进行评估时，他们会受到惩罚。这种危害不仅仅是系统在这些群体上表现较差，更在于评估基础设施本身缺乏资源来认可他们的贡献是合法的。

先前工作已记录了 ASR 在不同种族群体 [37](https://arxiv.org/html/2605.07084#bib.bib37)、方言 [70](https://arxiv.org/html/2605.07084#bib.bib70)、年龄组 [67](https://arxiv.org/html/2605.07084#bib.bib67) 和临床群体 [21](https://arxiv.org/html/2605.07084#bib.bib21),[72](https://arxiv.org/html/2605.07084#bib.bib72),[49](https://arxiv.org/html/2605.07084#bib.bib49) 之间的显著性能差异。对这些差异的哲学分析将 ASR 评估确定为认知伤害的发生地 [7](https://arxiv.org/html/2605.07084#bib.bib7)，但这些研究以固定的地面实况为基准测量差异，将差距归因于可通过改进训练数据或架构解决模型局限性。我们的贡献正交于此：我们表明，地面实况的选择本身塑造了测量的差异，且惯例选择可以是独立于模型性能的不公正来源。

另一方面，越来越多的文献将标注者分歧视为信号而非噪声 [54](https://arxiv.org/html/2605.07084#bib.bib54),[4](https://arxiv.org/html/2605.07084#bib.bib4)，探讨如何聚合不同判断或保留分歧信息。那些工作考察的是惯例**内**的变异（遵循相同指南的标注者仍可能分歧），而我们考察的是惯例**间**的变异，这些惯例合法地产生系统性不同的标签。这两种观点是互补的：多元地面实况增加了一个维度——解释框架——这是关注分歧的方法尚未解决的。

最近的实证工作为我们的理论主张提供了直接先例。McNamara 等人 [47](https://arxiv.org/html/2605.07084#bib.bib47) 证明，相同的 ASR 输出在逐字与非逐字参照下得分差异巨大，展示了同一系统-话语对的 WER 变化；他们指出，机器翻译早在几十年前就采用了多参照评估，但 ASR 却抵制这种多元主义。Heuser 等人 [32](https://arxiv.org/html/2605.07084#bib.bib32) 表明，转录风格的选择——而非声学建模——导致了非裔美国人英语（AAE）说话者的大量测量差异，人类转录者的惯例选择造成的变异多于 ASR 系统本身的差异。这些发现激励了本研究：我们提供了哲学框架来解释**为什么**单一参照评估构成认知不公，并形式化了**如何**衡量其成本。

我们通过三个阶段展开这一论点：(i) 一个哲学框架，引入说话者贡献与惯例解释资源之间的**诠释学差距**；(ii) 形式化定义，确立**认知不公距离**（EID）和 $\Delta$EID 以衡量参照单一主义的成本；以及 (iii) 实证演示，使用 AphasiaBank [46](https://arxiv.org/html/2605.07084#bib.bib46)，展示 WER 因定义地面实况的惯例不同而相差近两倍。

我们的实践建议是 **WER-Range**，这是一种报告实践，它在不同的合法惯例下报告性能，而不是将多元性坍缩为单一数值。图 1 [1](https://arxiv.org/html/2605.07084#S1.F1) 说明了完整论点：同一话语在不同惯例下产生三个转录文本，选择强制执行哪种惯例决定了评估是报告单一 WER 分数还是 WER-Range 区间，从而使该选择变得可见。

## 2 哲学基础

尽管 ASR 公平性审计层出不穷 [56](https://arxiv.org/html/2605.07084#bib.bib56),[37](https://arxiv.org/html/2605.07084#bib.bib37),[40](https://arxiv.org/html/2605.07084#bib.bib40),[73](https://arxiv.org/html/2605.07084#bib.bib73),[72](https://arxiv.org/html/2605.07084#bib.bib72),[49](https://arxiv.org/html/2605.07084#bib.bib49)，且基准批评已在 AI 评估中普遍发现了有效性问题 [17](https://arxiv.org/html/2605.07084#bib.bib17),[68](https://arxiv.org/html/2605.07084#bib.bib68),[57](https://arxiv.org/html/2605.07084#bib.bib57),[58](https://arxiv.org/html/2605.07084#bib.bib58),[1](https://arxiv.org/html/2605.07084#bib.bib1),[42](https://arxiv.org/html/2605.07084#bib.bib42)，但此前尚无工作考察**定义地面实况的解释框架**如何**塑造**测量差异。我们借鉴三个哲学传统，论证 ASR 评估构成了一种独特的伤害形式：**认知不公**。本节介绍核心概念；更详细的阐述见附录 A [A1](https://arxiv.org/html/2605.07084#A1)。

### 2.1 认知不公

Fricker [22](https://arxiv.org/html/2605.07084#bib.bib22) 指出了对个体**作为认知者身份**的伤害——她称之为**认知不公**。与物质或尊严伤害不同，认知伤害损害了一个人参与认知和传播知识的能力。Fricker 区分了两种形式：

*   **证言不公**（Testimonial injustice）：当说话者因其偏见而非证言本身的缺陷而收到**可信度赤字**（credibility deficit）时发生——他们的证言被认为比应有的更不可信。错误在于因**你是谁**而不是**你说了什么**而不被相信。
*   **诠释学不公**（Hermeneutical injustice）：当某人由于被边缘化于集体意义构建过程之外，而缺乏理解自身体验所需的解释资源（概念、词汇、框架）时发生。Fricker 的典型案例是 20 世纪 70 年代之前的性骚扰：女性缺乏使这种体验在社会上可理解的共享词汇，不是因为什么都没发生，而是因为集体诠释学资源缺乏适当的框架。

Dotson [14](https://arxiv.org/html/2605.07084#bib.bib14) 区分了证言**压制**（testimonial quieting，外部拒绝证言）与证言**窒息**（testimonial smothering，预期低可信度而进行的预防性自我审查）。Harrington [30](https://arxiv.org/html/2605.07084#bib.bib30) 在 ASR 中记录了这两种现象：黑人老年人明确描述有意识地修改他们的言语作为“语码转换”以被语音助手理解——这是在系统能够拒绝其自然言语之前运作的证言窒息。

关键在于，**集体**资源的缺口并不意味着没有人拥有适当的工具。Goetze [27](https://arxiv.org/html/2605.07084#bib.bib27) 确定了**诠释学异议**（hermeneutical dissent）：边缘化群体尽管被排除在主导意义构建之外，但仍**已发展**了解释工具的情况。当此类工具存在于社区内但尚未传播到其他群体时，Goetze 称之为**诠释学隔离**（hermeneutical ghettoization）——社区成员理解自身体验，但无法与缺乏解释资源的外部人士交流。正如我们下面所论证的，这精确描述了临床言语社区和非标准方言说话者与 ASR 系统之间的关系。

### 2.2 结构性不公与故意无知

Anderson [2](https://arxiv.org/html/2605.07084#bib.bib2) 认为，当认知不公嵌入社会制度时，个体的认知美德——培养对自身偏见的敏感度——是不够的。正如个人慈善无法补救结构性贫困一样，个人的开明心态也无法补救制度化的诠释学差距。

这种制度视角对 ASR 至关重要：诠释学差距嵌入在缺乏边缘化群体输入的转录惯例开发中 [37](https://arxiv.org/html/2605.07084#bib.bib37)、具有人口统计偏差的基准数据集、预设单一正确转录的评估指标，以及奖励标准基准表现的规范中 [18](https://arxiv.org/html/2605.07084#bib.bib18),[59](https://arxiv.org/html/2605.07084#bib.bib59)。值得注意的是，像 Mozilla Common Voice [3](https://arxiv.org/html/2605.07084#bib.bib3) 这样的倡议明确认识到这些局限性，强调社区参与和文档记录，而不是将惯例视为中性。

Pohlhaus [55](https://arxiv.org/html/2605.07084#bib.bib55) 引入了**故意的诠释学无知**（willful hermeneutical ignorance）：当主导群体积极抵制获取边缘化社区已发展的解释资源时发生。与简单的诠释学不公（差距存在是因为没有人发展出适当的概念）不同，故意无知涉及**拒绝**采用可用的工具。

临床言语转录惯例存在；AAE 音系学的社会语言学描述有据可查；残障社区已为多样化的说话者阐述了沟通规范。Rev AI 最近的工作表明，当有动机时，商业提供商可以融入多样化的转录惯例 [32](https://arxiv.org/html/2605.07084#bib.bib32)，但此类努力仍是例外而非标准实践。这些资源持续缺席主流 ASR 评估，并非疏忽，而是结构性地拒绝扩展决定何为准确转录的解释框架。

### 2.3 无上下文地面实况的不可能性

Dreyfus [15](https://arxiv.org/html/2605.07084#bib.bib15) 和 Suchman [64](https://arxiv.org/html/2605.07084#bib.bib64) 认为，人类专业知识通过无法用显式规则捕捉的隐性、情境判断来运作。专家转录者不应用算法；他们行使由目的、背景和背景塑造的整体模式识别。love2021specifying [44](https://

超越单一真实标准：作为认识论不公的参考一元论在自动语音识别评估中的体现

相似文章

评估失效的缩放定律：为何简单平均在数据稀疏和题目难度差距下会崩溃，以及项目反应理论如何跨领域恢复真实情况

@SarvamAI：我们开源两套评估印度语 ASR 的框架，并发布覆盖 22 种语言的完整评测指南。WER（…

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

语境之代价：在多模态检索增强生成中缓解文本偏差

量化评分标准修改对人类与自动评分者一致性影响的统计分析

提交意见反馈