基于音素的自动语音识别系统中的偏见评估:对IPA转录模型的分析

arXiv cs.CL 论文

摘要

本文使用音素错误率和新的Soft PER指标,评估了基于音素的自动语音识别系统(特别是WhisperIPA和ZIPA)中的人口统计和口音偏见,揭示了跨语言和群体的持续差异。

arXiv:2606.11639v1 公告类型:新 摘要:自动语音识别(ASR)系统的普及增加了对基于种族、年龄、性别和口音的人口统计偏见的研究,这些偏见通常源于不平衡的训练数据。大多数研究集中在标准的基于字素的ASR系统,而对基于音素的系统(例如生成国际音标(IPA)表示的模型)关注较少。随着ASR系统向多语言支持和低资源语言建模转变,基于IPA的层作为一个关键的、与语言无关的基础。在本研究中,我们评估了两个最先进的开源ASR系统——WhisperIPA和ZIPA的性能,它们能够跨不同口音和语言源生成IPA转录。我们的评估包括现有的多语言语音语料库和带有人口统计注释的英语语料库。我们通过将模型生成的IPA转录与使用标准音素错误率(PER)和提出的Soft PER指标(容忍语言上相似音素替换)的字素到音素(G2P)系统进行比较来衡量模型性能。我们的分析考察了性能在不同语言和人口统计组(如性别、口音、民族和年龄)之间的变化,揭示了即使在考虑了可接受的音位变异后仍然存在的持续差异。这些发现为偏见的潜在来源提供了见解,并为开发更包容和语言上更稳健的基于音素的ASR系统提供了信息。我们的代码和数据将向社区公开。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:40

# 评估基于音素的自动语音识别系统中的偏差:IPA转录模型分析
来源:https://arxiv.org/abs/2606.11639
查看PDF (https://arxiv.org/pdf/2606.11639)

> 摘要:自动语音识别(ASR)系统的普及促使人们越来越多地探索与种族、年龄、性别和口音相关的人口统计学偏差,这些偏差通常源于不平衡的训练数据。大多数研究集中在标准的基于字素的ASR系统上,而对基于音素的系统(例如生成国际音标IPA表示的模型)的关注相对较少。随着ASR系统向多语言支持和低资源语言建模方向转变,基于IPA的层作为与语言无关的关键基础发挥着重要作用。在本研究中,我们评估了两个最先进的开源ASR系统——WhisperIPA和ZIPA——在不同口音和语言来源下生成IPA转录的性能。我们的评估包括现有的多语言语音语料库和带有人口统计学注释的英语语料库。我们通过将模型生成的IPA转录与字素到音素(G2P)系统进行对比来衡量模型性能,同时使用标准音素错误率(PER)和一种提出的软PER度量(能容忍语言学上相似的音素替换)进行评估。我们的分析考察了不同语言和人口统计学群体(如性别、口音、民族和年龄)之间性能的差异,揭示了即使在考虑了可接受的音位变异后仍然存在持续的不平等。这些发现为偏差的潜在来源提供了见解,并为开发更具包容性和语言鲁棒性的基于音素的ASR系统提供了信息。我们的代码和数据将向社区公开提供。

## 提交历史

来自:Catherine Bao Bao [查看邮件](https://arxiv.org/show-email/800ed856/2606.11639) **[v1]** 2026年6月10日星期三 04:00:44 UTC (209 KB)

相似文章

转录儿童语音:ASR性能与获取可靠的正字法转写

arXiv cs.CL

这篇论文评估了九种ASR模型(Whisper、Parakeet、Wav2Vec2)在荷兰语儿童语音数据集JASMIN和DART上的表现,发现微调后的Whisper-medium取得了最佳性能(在JASMIN上WER为5.54%,在DART上为70.37%)。它还提出了一种选择方法,能够以高精度自动识别发音正确的录音片段,从而减少人工验证的需求。

使用发音音素识别评估语音发音合成

arXiv cs.CL

本文提出使用带有发音特征的音素识别来评估语音发音合成,解决了点对点距离等传统指标的局限性。在单说话人RT-MRI数据集上的实验表明,该方法能够捕捉语音细节并改进评估。

商业ASR系统在代码切换语音上的基准测试:阿拉伯语、波斯语和德语

arXiv cs.CL

本文提出了一个基准测试,评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能,使用两阶段管道为每个语言对选择300个样本,并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER(13.2%)和最高的BERTScore(0.936),并提供公开数据集。

越南语音中方言变化的语音建模

arXiv cs.CL

本文提出了一种方言感知的语音框架,用于建模越南语自动语音识别(ASR)中的语音变化,将音节分解为结构化组件,并将其映射到特定方言的国际音标(IPA)表示。该方法在UIT-ViMD多方言数据集上,以更少的参数且无需外部预训练,匹配了预训练基线的性能。