SamaVaani:印度语言多语言临床ASR的审计与去偏

arXiv cs.CL 论文

摘要

本文对印度语言的精神病学访谈中的多语言临床ASR系统进行了系统性审计,并提出了SamaVaani,一种统一的去偏技术,旨在提升跨人口群体的性能与公平性。

arXiv:2606.26901v1 Announce Type: new 摘要:自动语音识别(ASR)系统越来越多地被用于记录临床会诊,但其在印度多语言、多人口背景下的医疗环境中的可靠性仍 largely unknown(很大程度上未知)。在这项研究中,我们首先对涵盖卡纳达语、印地语和印度英语的真实世界精神病学访谈数据,进行了ASR性能的系统性审计,比较了包括IndicWhisper、WhisperLargeV3、Sarvam、GoogleS2T、Gemma3n、OmniLingual、Vaani和Gemini在内的八种最先进的模型。我们的结果揭示了模型和语言之间的显著差异,一些系统在印度英语中表现良好,但在地区性语言中表现不佳。我们还对各种方法进行了进一步的微调,对两个表现最佳的开源模型(即Gemma3n和OmniLingual)进行了优化。通过这一过程,我们发现了与说话者角色和性别相关的系统性性能差距,这引发了对临床环境中公平部署的担忧,而公平感知的微调进一步缓解了这些问题。为此,我们提出了SamaVaani,一种统一的去偏技术,能够同时提升ASR性能并改善跨人口群体的公平性。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:20

# 多语言临床ASR的审计与去偏:面向印度语言
来源:https://arxiv.org/html/2606.26901 \\fontspec\_if\_language:nTF ENG\\addfontfeatureLanguage=English Subham Kumar†Prakrithi Shivaprakash‡Abhishek Manoharan‡Astut Kurariya‡ Diptadhi Mukherjee\*Prabhat Chand‡Pratima Murthy‡ Koustav Rudra†Lekhansh Shukla‡Animesh Mukherjee† †IIT, Kharagpur,‡NIMHANS, Bangalore,\*LGBRIMH, Tezpur \{kumarshubham209, prakrithishivaprakash, 12\.abhishek\.m, astutnamo, diptadhimukherjee\}@gmail\.com prabhat@vknnimhans\.in, \{pratimamurthy, krudra5, drlekhansh, animeshm\}@gmail\.com ###### 摘要 自动语音识别(ASR)越来越多地被用于记录临床会诊,但其在印度多语言和人口多样性丰富的医疗环境中的可靠性仍然很大程度上未知。在本研究中,我们首先对真实世界的精神病学访谈音频(涵盖卡纳达语、印地语和印度英语)进行ASR性能的系统性审计,比较了八种最先进的模型,包括IndicWhisper、WhisperLargeV3、Sarvam、GoogleS2T、Gemma3n、OmniLingual、Vaani和Gemini。我们的结果揭示了模型和语言之间的显著变异性,部分系统在印度英语上表现有竞争力,但在地区语言上表现不佳。我们进一步使用多种方法微调了两个表现最佳的开源模型,即Gemma3n和OmniLingual。通过此举,我们发现了与说话者角色和性别相关的系统性性能差距,引发了对临床场景中公平部署的担忧,而公平性感知的微调可以缓解这些问题。为此,我们提出了SamaVaani,一种统一的去偏技术,能够同时提升ASR性能并改善不同人口群体间的公平性。 ## \\fontspec\_if\_language:nTF ENG\\addfontfeatureLanguage=English 1 引言 精神病学领域高度依赖语言,详细的临床访谈而非实验室或影像学检查是主要诊断工具。随后,这些访谈的逐字转录被广泛用于临床诊断、学术培训、定性研究,以及最近的AI系统开发。然而,生成准确的转录仍然是一个主要瓶颈:人工转录既费力又耗时(每小时的音频需要5-8小时),且容易出错。ASR系统提供了一种可扩展的替代方案,但转录错误在精神科场景中可能会显著改变临床解读。现代ASR系统,包括专有平台(GoogleS2T、Microsoft Azure、Amazon Transcribe)和像Whisper这样的开源模型,已改善了转录质量。尽管这些系统在标准英语(美式和英式)及受控环境中表现良好,但对于非标准英语、口语化口音英语以及多语言环境中常见的语码混合和转换,其性能显著下降。此外,印度英语和印度地区语言在全球训练语料库中仍代表性不足,导致准确率下降和变异增大。这些困难在精神病学访谈中特有的临床言语模式(如抑郁症中的低声、犹豫和长停顿;躁狂症中的快速高声说话;焦虑症中的口吃和重复;以及精神分裂症中无序的语法化言语和语词新作)下被放大。此外,录音通常是在声学条件不佳的环境(如病房内风扇、医疗设备或救护车警笛的噪音)下进行的。另一个重大问题是转录的公平性和准确性。由于医生和患者在教育水平、社会经济背景、对话角色和说话风格上存在很大差异,这些问题在精神病学访谈中可能更为突出。尽管最近多语言ASR领域取得了进展,但现有评估主要依赖于通用数据集,未能捕捉真实世界精神病学访谈的复杂性。我们的工作通过系统分析和进一步改进ASR在多语言精神科互动中的性能来填补这一空白。 我们的贡献和发现: 在这项工作中,我们首次对ASR系统在真实世界多语言精神病学访谈(印度背景)中的性能进行了系统性审计。利用一个涵盖卡纳达语、印地语和印度英语的新数据集,我们评估了八种最先进的ASR模型在不同语言、说话者角色和人口群体上的表现,并引入了基于WER和细粒度错误模式的全面公平性分析。我们发现模型和语言之间的性能存在显著变异性,低资源语言(如卡纳达语)的错误率持续较高,同时在说话者角色和性别上也存在系统性差异。因此,我们提出了SamaVaani,一个简单而有效的公平性感知微调框架,结合了对比学习和CTC对齐,显著提升了转录准确率(WER降低高达约50%)及跨人口群体的公平性。综上,我们的研究强调了当前ASR系统在临床环境中的关键局限性,并为在医疗保健中实现更公平和更稳健的多语言ASR部署提供了可行的路径。 ## \\fontspec\_if\_language:nTF ENG\\addfontfeatureLanguage=English 2 相关工作 针对印度多语言精神科场景的ASR研究涵盖三个相互关联的领域:(i)ASR在精神科访谈中的应用;(ii)ASR中的偏见和说话者层面差异;(iii)针对印度语言和口音的ASR。我们强调每个领域的挑战和空白,这些构成了本研究的动机。 **ASR在精神科访谈中的应用**:越来越多的研究探讨了使用ASR转录或分析精神科访谈。ciampelli\_combining\_2023 和 just\_moving\_2025 评估了ASR在精神分裂症患者中的表现,分别使用荷兰语和德语访谈与健康对照组进行比较。多项研究在西班牙语和法语的精神病性障碍患者访谈中发现较高的WER。最后,seyedi2023using 研究了ASR在抑郁症患者(与美国英语中曾有抑郁史的对照组相比)访谈中的表现,发现两组在WER上没有差异。 **ASR中的偏见和说话者层面差异**:先前的研究已发现YouTube音频中的性别差异、商业ASR系统中非裔美国人说话者更高的错误率,以及临床场景中非母语德语口音的不平等。年龄、性别、口音和低资源语言相关的偏见也影响ASR性能。然而,这些研究并非针对多语言精神科访谈,其中对话角色天然不平等,临床医生通常产生更长、更结构化的言语,而患者提供更短、更不确定的回答。 **针对印度语言和口音的ASR**:近期工作聚焦于印度英语和印度地区语言的ASR挑战。Svarah 发现印度口音英语的WER显著高于LibriSpeech。rai\_deep\_2024 通过分析NPTEL 8740小时的印度英语讲座,观察到性别、地区和语速方面的显著差异。对于印度语言,大型数据集IndicSUPERB和IndicVoices进一步突显了印度语言的语言学、形态学和韵律多样性,这些给ASR带来了挑战。然而,这些数据集不包含临床对话和错误类型分析。在这方面,Eka Medical ASR评估数据集提供了超过3900条录音,包含有价值的印度口音和药物词汇,但仅限于简短、静态的对话。另一方面,DISPLACE-M数据集包含55小时标注的医疗领域对话语音,但缺乏精神科病例的访谈。 ## \\fontspec\_if\_language:nTF ENG\\addfontfeatureLanguage=English 3 数据集特征 整体|英语|印地语|卡纳达语|p值
--- | --- | --- | --- | ---
\#N = 202∗|N = 54∗|N = 78∗|N = 70∗| 
时长(分钟)|30.9(6.1, 45.6)|36.5(28.7, 51.1)|25.3(4.5, 36.5)|27.2(3.6, 45.2)|<<0.001
总词数|4756.5(1042, 6111.5)|5636.5(4331, 6216.8)|3877.5(845.8, 7135)|3637.0(526, 4873)|<<0.001
唯一次数|1152.0(407.5, 1412.2)|1269.5(1028.8, 1404.2)|885.5(316.2, 1185.5)|1450.5(248.8, 1759.8)|<<0.001
移动平均 类型-标记比(窗口=100)|0.64(0.61, 0.67)|0.61(0.59, 0.62)|0.64(0.62, 0.66)|0.69(0.67, 0.71)|<<0.001
表1:数据集摘要。∗表示中位数(Q1, Q3),#表示Kruskal-Wallis秩和检验。

本研究所用数据来自一家专门治疗精神和神经系统疾病的三级教学医院。该医院为经济困难患者提供免费住院和门诊治疗,因此大多数受益者来自此类背景。我们收集了202条患者与医生/治疗师互动的音频录音。这些录音使用安卓手机以mp3格式录制。尽管尝试在安静环境中录音,但未做特殊安排。因此,数据代表了真实世界场景,即在繁忙的病房和门诊房间中进行的录音。数据集的语言、时长和词汇多样性总结于表1,说话者概况详见表2。

特征|整体|英语|印地语|卡纳达语|p值
--- | --- | --- | --- | --- | ---
\#N = 202∗|N = 54∗|N = 78∗|N = 70∗| 
患者性别:女|51 (25.2%)|2 (3.7%)|18 (23.1%)|31 (44.3%)|<<0.001
患者性别:男|151 (74.8%)|52 (96.3%)|60 (76.9%)|39 (55.7%)|<<0.001
医生性别:女|104 (51.5%)|54 (100%)|30 (38.5%)|20 (28.6%)|<<0.001
医生性别:男|98 (48.5%)|0 (0%)|48 (61.5%)|50 (71.4%)|<<0.001
患者教育水平:不及/等于/超过本科|70 (34.7%)|36 (66.7%)|20 (25.6%)|14 (20.0%)|<<0.001
表2:说话者概况摘要。∗表示中位数(Q1, Q3),#表示Kruskal-Wallis秩和检验。

该数据集包含130位独特说话者的语音,包括7位医生/治疗师和123位患者。所有对话均为两人之间,构成202对独特的医患/治疗师-患者对。 预处理:所有录音由两名精神病学家收听以确保可理解性。确保录音不包含患者姓名或任何数字标识符(如电话号码等)。但我们未排除包含地名、日期等的片段,因为我们希望评估这类命名实体是否会导致更多ASR错误。 标注:作为先前研究的一部分,其中103条录音已有原生语言转录。对于其余99条转录,由两名精神病学家进行转录。转录语音为文本的标注指南见附录C,其中包含三种语言各自的示例。 ## \\fontspec\_if\_language:nTF ENG\\addfontfeatureLanguage=English 4 方法细节 在本节中,我们首先列出用于审计的基础ASR模型。我们还讨论了改善基础模型WER和公平性的不同微调方法。最后,我们介绍了用于开发SamaVaani框架的去偏算法。 ### \\fontspec\_if\_language:nTF ENG\\addfontfeatureLanguage=English 4.1 ASR模型 **基础模型**:我们评估了总共八种ASR模型,如前所述。包括IndicWhisper、WhisperLargeV3、Sarvam、GoogleS2T、Gemma3n、OmniLingual、Vaani和Gemini。其中,GoogleS2T、Sarvam和Gemini是通过API推理的专有模型,其他为开源模型。回想一下,我们拥有访谈格式的音频文件,每个文件恰好有两个说话者,即患者和医生。我们为每个长格式音频文件生成转录。其中几个ASR模型(Sarvam的Saarika-2.5和Gemini)能够接收长格式音频直接生成转录,而其他模型(IndicWhisper、WhisperLargeV3、Vaani、Gemma3n和GoogleS2T)只能处理30秒的音频片段。 **微调模型**:改善整体WER和跨人口群体公平性的直接方法之一是微调基础模型。为此,我们选择了两个性能最好的开源ASR模型——Gemma3n和OmniLingual(它们在各个组别中得分最高,详见第6节)。我们进行如下两种类型的微调。 **FTStd.**:指使用部分数据集进行标准LoRA微调。 **FTPS**:此处我们通过增强音频文件的音调来使数据集加倍。假设这种合成数据增强能够带来更强的微调效果,从而改善WER和公平性。在我们的实验中,我们使用了PitchShift在[-5, +5]个半音范围内随机选择来增强原始音频。

相似文章

RedVox:跨语言语音模型的安全与公平性差距

arXiv cs.CL

本文介绍了RedVox,一个用于语音模型的多语言安全与公平性基准。通过对五种语言中八个最先进模型的评估,发现存在持续漏洞,且在非英语环境和语音输入情况下更为严重。