基于音素的自动语音识别系统中的偏见评估：对IPA转录模型的分析

arXiv cs.CL 2026/06/11 04:00 论文

bias automatic-speech-recognition phoneme ipa whisperipa zipa evaluation

摘要

本文使用音素错误率和新的Soft PER指标，评估了基于音素的自动语音识别系统（特别是WhisperIPA和ZIPA）中的人口统计和口音偏见，揭示了跨语言和群体的持续差异。

arXiv:2606.11639v1 公告类型：新摘要：自动语音识别（ASR）系统的普及增加了对基于种族、年龄、性别和口音的人口统计偏见的研究，这些偏见通常源于不平衡的训练数据。大多数研究集中在标准的基于字素的ASR系统，而对基于音素的系统（例如生成国际音标（IPA）表示的模型）关注较少。随着ASR系统向多语言支持和低资源语言建模转变，基于IPA的层作为一个关键的、与语言无关的基础。在本研究中，我们评估了两个最先进的开源ASR系统——WhisperIPA和ZIPA的性能，它们能够跨不同口音和语言源生成IPA转录。我们的评估包括现有的多语言语音语料库和带有人口统计注释的英语语料库。我们通过将模型生成的IPA转录与使用标准音素错误率（PER）和提出的Soft PER指标（容忍语言上相似音素替换）的字素到音素（G2P）系统进行比较来衡量模型性能。我们的分析考察了性能在不同语言和人口统计组（如性别、口音、民族和年龄）之间的变化，揭示了即使在考虑了可接受的音位变异后仍然存在的持续差异。这些发现为偏见的潜在来源提供了见解，并为开发更包容和语言上更稳健的基于音素的ASR系统提供了信息。我们的代码和数据将向社区公开。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:40

# 评估基于音素的自动语音识别系统中的偏差：IPA转录模型分析
来源：https://arxiv.org/abs/2606.11639
查看PDF (https://arxiv.org/pdf/2606.11639)

> 摘要：自动语音识别（ASR）系统的普及促使人们越来越多地探索与种族、年龄、性别和口音相关的人口统计学偏差，这些偏差通常源于不平衡的训练数据。大多数研究集中在标准的基于字素的ASR系统上，而对基于音素的系统（例如生成国际音标IPA表示的模型）的关注相对较少。随着ASR系统向多语言支持和低资源语言建模方向转变，基于IPA的层作为与语言无关的关键基础发挥着重要作用。在本研究中，我们评估了两个最先进的开源ASR系统——WhisperIPA和ZIPA——在不同口音和语言来源下生成IPA转录的性能。我们的评估包括现有的多语言语音语料库和带有人口统计学注释的英语语料库。我们通过将模型生成的IPA转录与字素到音素（G2P）系统进行对比来衡量模型性能，同时使用标准音素错误率（PER）和一种提出的软PER度量（能容忍语言学上相似的音素替换）进行评估。我们的分析考察了不同语言和人口统计学群体（如性别、口音、民族和年龄）之间性能的差异，揭示了即使在考虑了可接受的音位变异后仍然存在持续的不平等。这些发现为偏差的潜在来源提供了见解，并为开发更具包容性和语言鲁棒性的基于音素的ASR系统提供了信息。我们的代码和数据将向社区公开提供。

## 提交历史

来自：Catherine Bao Bao [查看邮件](https://arxiv.org/show-email/800ed856/2606.11639) **[v1]** 2026年6月10日星期三 04:00:44 UTC (209 KB)

基于音素的自动语音识别系统中的偏见评估：对IPA转录模型的分析

相似文章

你的多模态语音模型说我长了一张适合广播的脸

转录儿童语音：ASR性能与获取可靠的正字法转写

使用发音音素识别评估语音发音合成

商业ASR系统在代码切换语音上的基准测试：阿拉伯语、波斯语和德语

越南语音中方言变化的语音建模

提交意见反馈