多脚本情境下的重要性:临床环境中的ASR评估

arXiv cs.CL 论文

摘要

介绍了MultiClin,一个用于评估多脚本临床环境中ASR性能的基准测试,结果表明脚本统一化比传统的单一参考指标更能提升性能。

arXiv:2606.17826v1 公告类型:新 摘要:非英语临床环境中的自动语音识别(ASR)面临多脚本变体的挑战,即同一术语可能以多种有效的正字法形式出现。传统的字符串匹配评估指标常常将正字法变体视为错误,从而低估了ASR的性能。为解决这一问题,我们引入了MultiClin,一个旨在评估ASR对多脚本变体鲁棒性的临床基准测试。在多种ASR模型上的实验表明,与传统的单一参考评估相比,多脚本感知评估能更公平地评估识别质量。我们进一步研究了训练过程中脚本一致性的影响,发现不一致的脚本映射会增加正字法不确定性并阻碍模型收敛,而平衡的50%映射比例会产生最高的熵。相比之下,脚本统一化始终能带来最佳的ASR性能。我们的数据集和代码公开可用,链接为:https://github.com/aitrics-ronaldo/Interspeech_MultiClin。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:42

# 临床场景下的 ASR 评估:当多种书写形式至关重要

## 临床场景下的 ASR 评估:当多种书写形式至关重要

###### 摘要

自动语音识别(ASR)在非英语临床环境中面临多书写系统变异性的挑战,即同一术语可能存在多种有效的正字法形式。传统的字符串匹配评估指标通常将正字法变体视为错误,从而低估 ASR 性能。为解决这一问题,我们引入了 MultiClin,这是一个专为评估多书写系统变异性鲁棒性而设计的临床 ASR 基准。跨多种 ASR 模型的实验表明,与传统的单一参考评估相比,考虑多书写系统的评估能更公平地衡量识别质量。我们进一步探究了训练过程中书写系统一致性的影响,发现不一致的书写系统映射会增加正字法不确定性,阻碍模型收敛,其中 50% 的均衡映射比例产生的熵最高。相比之下,书写系统统一始终能带来最佳的 ASR 性能。我们的数据集和代码已公开:https://github.com/aitrics-ronaldo/Interspeech_MultiClin。

###### 关键词:自动语音识别,评估,多书写系统变异性,语码转换,医疗保健

## 1. 引言

自动语音识别(ASR)在临床环境中被越来越多地采用,以提高工作流程效率 [xu2025enhancing, alboksmaty2025impact, tran2023automatic]。然而,领域特定的术语和嘈杂的环境仍然给临床 ASR 带来挑战。在非英语环境中,这些困难被进一步放大,因为英语医学术语常常与当地书写系统的语音转写形式共存 [agro2025codeswitchingendtoendautomaticspeech]。在这种环境下,可靠基准测试的一个核心障碍是**多书写系统变异性**,即一个口语化术语可能对应多个有效的正字法形式(例如,英语拼写或本地书写系统的语音转写)。与传统的语码转换(涉及语言间的声学交替)不同,多书写系统变异性源于正字法差异,尽管声学实现相同。

传统的 ASR 评估假设每个话语只有一个参考转录。然而,这一假设在非英语临床环境中常常被打破,因为源自英语的医学术语缺乏标准化的本地化指南,可能以多种有效形式转录。这种正字法与语音之间的多对一映射使得严格的基于字符串的指标(如词错误率 WER)失效,系统性地惩罚了在语音和语义上正确但正字法与参考不同的输出 [Mustafa2022CodeSwitchingIA, Srivastava2018HomophoneIA, Chowdhury2020EffectsOD]。此外,由于临床文档实践不一致以及缺乏标准化的领域特定语料库,基于归一化的解决方案仍然不切实际。

虽然多语言 ASR 研究已广泛研究了语码转换 [Nakayama2019ZeroShotCA],但先前的工作主要集中于建模和数据增强 [kumar2021dual, Li2019TowardsCA, Yilmaz2017LanguageDF] 而非评估。现有的基准通常依赖于单一的真实参考 [Hamed2022BenchmarkingEM, Paik2025HiKEHE],而基于音译的方法 [Emond2018TransliterationBA] 和指标(如音译 WER(T-WER)[Chowdhury2021TowardsOM, Ali2015MultiReferenceEF])主要针对通用领域的语码转换和方言变异进行评估,使得临床多书写系统场景基本未被探索。

表 1:MultiClin 数据集中原始、标记和翻译对话的示例。

为填补这一空白,我们引入 MultiClin,这是一个提供多书写系统术语的多种有效转录变体的临床 ASR 基准。通过韩国临床案例研究,我们证明动态多参考评估能在正字法变异性下提供更公平的 ASR 性能评估。

表 2:MultiClin 数据集的统计信息。

A. 过滤阶段(初始 → 最终)

| 数据集         | 初始对话数 | 最终对话数 |
| -------------- | ---------- | ---------- |
| ACI Bench      | 126        | 116        |
| Primock57      | 186        | 9          |
| MTS-Dialog     | 1,175      | 191        |
| 总计           | 1,487      | 316        |

B. 平均每对话标记实例数

- MedicalTags: 44
- NumberTags: 6
- UnitTags: 1

## 2. MultiClin 数据集

我们构建 MultiClin 数据集以反映真实世界的临床 ASR 挑战。表 1 展示了注释过程中每个阶段对应的示例数据。

### 2.1 数据集构建

#### 2.1.1 收集

我们从 ACIBench [yim2023acibenchnovelambientclinical]、Primock57 [papadopoulos-korfiatis-etal-2022-primock57] 和 MTS-Dialog [mts-dialog] 中收集公开的医患对话数据。为确保自然的临床对话,我们排除了涉及虚拟助手的对话,仅保留医生与患者之间的互动,最终得到初始的 1,487 个对话。

#### 2.1.2 注释

数据集经过三个处理阶段:标记、翻译和人工注释。我们使用 gpt-5.2¹¹ 识别书写系统转换实例,并将其分为三类:Medical、Unit 和 Number。Medical 标记表示源自英语的医学术语,以罗马字母或音译借词形式出现。Unit 标记表示以本地书写系统或标准化符号(如 %、cm)表达的计量单位,而 Number 标记表示以本地书写系统或阿拉伯数字书写的数值表达式。

然后我们使用同一模型将对话翻译成韩语。标记的跨度保持其原始形式,并附加韩文(Hangeul)转写,以逗号分隔(无空格)。例如,“You need an injection.” 变为 “injection,인젝션이 필요합니다.”。换句话说,标记实体进行音译,保持词汇身份不变仅改变书写系统,而其余文本则完全翻译成韩语。

最后,两名具有护理背景的注释员检查所有对话的正字法正确性、翻译忠实度和自然度。任何分歧或错误通过共识解决,最终得到精炼的数据集。

#### 2.1.3 语音生成

为遵守《健康保险便携性与责任法案》(HIPAA)对发布真实临床音频的限制,我们使用 gpt-4o-mini-tts 合成对话。我们将说话者角色映射到不同的说话风格(例如,医生使用专业语调,患者使用疲倦语调),并应用口音感知提示以将多书写系统跨度与本地语调模式对齐。为减少合成语音与真实临床语音之间的声学差异,我们融入类似人类对话的动态特征,包括重叠和响应延迟,并使用 DSP 链²² 模拟临床环境(例如混响和 HVAC 噪声)。所有音频重采样为 16 kHz。

表 3:MultiClin 中的临床专业分布。\*Other 包含 8 个次要领域(如疼痛管理、牙科、整形外科)。

### 2.2 统计信息

**数据集过滤**。从初始的 1,487 个对话中,我们保留 1,417 个包含至少一个 Medical、Number 或 Unit 标记的实例。然后我们手动移除不自然或虚构的对话,最终得到 316 个对话(表 2A)。

**标记与对话统计**。Medical 术语在书写系统转换实例中占主导地位(表 2B)。每个对话平均包含 34 个轮次和 68 个句子,每说话者话语统计信息见表 2C。

**说话者构成**。大多数对话涉及一位医生和一位患者(表 2D)。在患者缺席的情况下,监护人(Guest Family)代其发言。

**临床专业分布**。来自三个来源的所有对话均附有结构化临床笔记(如 SOAP 笔记)。使用 gpt-5.2,我们从这些元数据推断每个对话的主要临床专业(表 3)。

表 4:基线模型的性能。

## 3. 实验

我们在 MultiClin 基准上评估 ASR 性能,以量化多书写系统变异性的影响。我们分析跨不同架构的零样本推理,并评估在不同标记策略下领域特定微调的效果。

### 3.1 实验设置

#### 3.1.1 基线模型

我们考虑三个模型族作为基线:(1) Whisper [whisper](large-v3、v3-turbo),通过 faster-whisper³³ 实现;(2) Qwen3 ASR [qwen3-asr](0.6B、1.7B);以及 (3) Gemini [gemini](2.5 Flash、2.5 Pro),代表前沿多模态模型的最新水平。

#### 3.1.2 推理配置

我们详细说明多模态基线的零样本推理配置以确保可重复性。

**Gemini 提示策略**。我们使用结构化的零样本提示查询 Gemini 模型。我们指示模型充当专业医疗速记员,生成逐字转录,明确禁止说话者识别、说话者前缀和摘要。为确保确定性和可解析的输出,我们将采样温度设置为 0.0,并强制使用 JSON 输出格式,从中提取转录作为句子数组。

**Qwen 推理设置**。对于 Qwen3 ASR 模型,我们通过将最大生成长度设置为 65,536 个 token 来适应较长的临床对话。为提高内存效率并避免长格式音频处理时的内存溢出(OOM)错误,我们将最大推理批次大小限制为 32。

#### 3.1.3 微调配置

对于微调实验,我们使用 LoRA [lora] 训练 Whisper 模型。我们将 MultiClin 数据集按 9:1 的比例分割以构建独立的测试集。重要的是,我们应用 100% 音译比例,即所有标记的 Medical、Number 和 Unit 实体一致地统一为本地书写系统,以最大化标记一致性。此设置在训练阶段减少了正字法歧义。最后,模型训练 4 个 epoch,批次大小为 4。

#### 3.1.4 评估协议

为在多书写系统设置下更准确地评估 ASR 性能,我们引入一个本地化评估指标(算法 1),该指标将原始英语医学术语及其在本地书写系统中的语音转写均视为有效参考。具体来说,对于参考转录中的每个书写系统转换实体,我们使用跟踪光标从 ASR 预测 ŷ 中动态提取一个 50 字符窗口。为减轻时间错位,我们在目标实体与相应预测窗口之间应用最长公共子串(LCS)匹配。然后我们计算这些对齐边界内的局部 CER 和 WER,减少周围转录错误的影响,从而在正字法变体之间进行更稳健的实体级正确性比较。

**算法 1:动态多参考解析**

**输入**:标记参考 y_tag、ASR 假设 ŷ、窗口大小 W=50、模式映射 M ∈ {original, both}

**输出**:动态解析后的参考 y_final

1. cursor ← 0
2. y_final ← y_tag
3. **for** 每个实体元组 (t, e_orig, e_tgt) in y_tag **do**
4.   m ← M[t]  // 获取标记类型 t 的评估模式
5.   **if** m = original **then**
6.     将 y_final 中的标记替换为 e_orig
7.   **else if** m = both **then**
8.     **if** cursor ≥ |ŷ| **then**
9.       将 y_final 中的标记替换为 e_orig
10.    **else**
11.      ŷ_win ← ŷ[cursor : min(cursor + W, |ŷ|)]
12.      cer_orig, offset_orig ← LocalCER(e_orig, ŷ_win)
13.      cer_tgt, offset_tgt ← LocalCER(e_tgt, ŷ_win)
14.      // 基于最小局部错误的优先级选择
15.      **if** cer_tgt < cer_orig **then**

相似文章

商业ASR系统在代码切换语音上的基准测试:阿拉伯语、波斯语和德语

arXiv cs.CL

本文提出了一个基准测试,评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能,使用两阶段管道为每个语言对选择300个样本,并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER(13.2%)和最高的BERTScore(0.936),并提供公开数据集。

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

arXiv cs.CL

MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。

SpeechDx:临床语音AI的多任务基准

arXiv cs.AI

SpeechDx 是一个大规模临床语音AI基准,涵盖12个数据集和27个任务,覆盖多种健康状况,并按语音生成阶段进行结构化。它评估了12种最先进的音频编码器,结果表明当前模型在临床语音领域无法可靠地泛化。