你的多模态语音模型说我长了一张适合广播的脸

arXiv cs.CL 2026/06/01 04:00 论文

multimodal-speech bias-evaluation speech-recognition fairness gender-bias ethnicity-bias ai-bias

摘要

本文首次对多模态语音识别模型进行了偏见评估，发现在将人脸与音频配对时，跨性别和种族的准确率存在显著差异，这对AI系统的公平性具有重要意义。

arXiv:2605.30472v1 公告类型：新摘要：随着大型神经模型在语言任务上的表现日益提升，研究人员正越来越多地构建能够处理更多数据模态的多模态和全模态模型。例如，语音识别模型扩展至音视频数据，以实现噪声抑制和多模态字幕生成。尽管在单模态领域对性能和偏见已有广泛研究，但新模态的影响尚不明确，尽管这些模态会在人类中产生偏见。因此，我们首次提出对多模态语音识别进行偏见评估，通过制作将不同人脸与相同音频配对的视频，并测量语音转录准确率的变化。我们发现，在mWhisper-Flamingo和Gemini模型中，服务质量的差异较大——在自我声明的性别、种族及其交叉类别上，词错误率最高下降4.05个百分点。我们的研究结果指出，开发人员应优先评估、修复并沟通此类局限性，因为通过额外模态提供更多信号未必更好，甚至可能导致有偏见的结果。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:23

# 你的多模态语音模型说我长得像广播员  
来源：https://arxiv.org/html/2605.30472  
Maya K. Nachesa、Vlad Niculae  
语言技术实验室，阿姆斯特丹大学  
{m.k.nachesa (https://arxiv.org/html/2605.30472v1/mailto:[email protected]),v.niculae (https://arxiv.org/html/2605.30472v1/mailto:[email protected])}@uva.nl  
& Vagrant Gautam  
海德堡理论研究所  
[email protected] (https://arxiv.org/html/2605.30472v1/mailto:[email protected])  

###### 摘要  
随着大型神经模型在语言任务上的表现日益提升，研究人员越来越多地构建能够处理更多模态数据的多模态和全模态模型。例如，语音识别模型扩展到了音视频数据，用于降噪和多模态字幕生成。虽然单模态场景下的性能和偏见问题已被广泛研究，但新模态的加入会如何影响这些方面尚不清楚，尽管它们在人类中确实会产生偏见。因此，我们提出了首个针对多模态语音识别的偏见评估，通过将不同人脸与相同音频配对生成视频，并衡量语音转录精度的变化。我们发现，在 mWhisper-Flamingo 和 Gemini 模型中，词错误率在自我声明的性别、种族及其交叉维度上存在高达 4.05 个百分点的服务质量差异。我们的研究结果表明，开发者应优先评估、修复并公开此类局限性，因为通过额外模态提供更多信号并不一定更好，甚至可能导致有偏见的结果。

你的多模态语音模型说我长得像广播员  
Maya K. Nachesa、Vlad Niculae  
语言技术实验室，阿姆斯特丹大学  
{m.k.nachesa (https://arxiv.org/html/2605.30472v1/mailto:[email protected]),v.niculae (https://arxiv.org/html/2605.30472v1/mailto:[email protected])}@uva.nl  
Vagrant Gautam  
海德堡理论研究所  
[email protected] (https://arxiv.org/html/2605.30472v1/mailto:[email protected])  

## 1 引言  
随着大型神经模型在单一语言模态（如文本或音频）上取得进步，越来越多的模型开始整合多种模态，形成所谓的“多模态”或“全模态”模型，例如图像与文本 (Radford et al., 2021 (https://arxiv.org/html/2605.30472#bib.bib46); Liu et al., 2023 (https://arxiv.org/html/2605.30472#bib.bib45); Bai et al., 2024 (https://arxiv.org/html/2605.30472#bib.bib47))，以及视频与音频 (Shi et al., 2022 (https://arxiv.org/html/2605.30472#bib.bib16); Rouditchenko et al., 2024 (https://arxiv.org/html/2605.30472#bib.bib11), 2025 (https://arxiv.org/html/2605.30472#bib.bib15); Shu et al., 2025 (https://arxiv.org/html/2605.30472#bib.bib17))。在基于音频的研究中，向多模态的扩展主要集中在音视频语音识别上，应用于噪声环境 (Rouditchenko et al., 2024 (https://arxiv.org/html/2605.30472#bib.bib11), 2025 (https://arxiv.org/html/2605.30472#bib.bib15))、自动视频字幕、字幕生成 (El Idrissi et al., 2025 (https://arxiv.org/html/2605.30472#bib.bib41)) 等。听觉和视觉过程也参与人类的言语感知 (McGurk and MacDonald, 1976 (https://arxiv.org/html/2605.30472#bib.bib10))，同样有助于我们在嘈杂环境中理解言语 (Sumby and Pollack, 1954 (https://arxiv.org/html/2605.30472#bib.bib32))。然而，对说话者的视觉感知有时可能会恶化我们对其言语的听觉处理，这种现象被称为“反向语言刻板印象” (Kang and Rubin, 2009 (https://arxiv.org/html/2605.30472#bib.bib22))。换句话说，视觉感知的说话者种族等非语言因素会影响言语感知和处理 (Rubin and Smith, 1990 (https://arxiv.org/html/2605.30472#bib.bib20); Rubin, 1992 (https://arxiv.org/html/2605.30472#bib.bib25); Zheng and Samuel, 2017 (https://arxiv.org/html/2605.30472#bib.bib24); Bhuvanagiri et al., 2019 (https://arxiv.org/html/2605.30472#bib.bib21); Kutlu, 2023 (https://arxiv.org/html/2605.30472#bib.bib12))。尽管在视觉 (Buolamwini and Gebru, 2018 (https://arxiv.org/html/2605.30472#bib.bib28)) 和语音 (Koenecke et al., 2020 (https://arxiv.org/html/2605.30472#bib.bib13)) 的单模态研究中已有长期历史，但至今尚无研究检查此类多模态种族语言学偏见是否也出现在音视频语音识别系统中。缺乏此类研究主要由于收集合适数据的难度：视频必须*音频匹配*以消除混杂因素，类似于社会语言学中的匹配伪装设置。我们提出了一种合成设置，允许大规模评估不同人脸的种族和性别是否影响音视频语音识别性能。我们构建了一个包含 75,000 个视频的数据集，其中英语音频样本在听觉特征（口音和噪声）上有所不同，并与唇形同步的人脸（在视觉特征上有所不同，即种族和性别）进行系统性配对。利用该数据集，我们使用两个模型评估音视频语音识别：mWhisper-Flamingo medium (Rouditchenko et al., 2025 (https://arxiv.org/html/2605.30472#bib.bib15)) 和 Gemini-2.5-Flash (Comanici et al., 2025 (https://arxiv.org/html/2605.30472#bib.bib49))。我们展示了合成设置是有效的偏见测试平台，因为我们的唇形同步视频在噪声条件下有助于提升音视频语音识别 (AVSR) 性能，与自然视频相似。无论有无噪声，AVSR 模型在对完全相同的音频使用不同人脸进行转录时，都表现出单轴和交叉的种族与性别偏见。因此，我们的发现提供了 AVSR 模型中存在反向语言刻板印象的证据。我们希望我们的工作能促使开发者修复偏见来源可能来自多种模态的上下文中的偏见，以实现更好、更公平的多模态语音识别。111代码地址：github.com/ltl-uva/MultiModalSpeechBias (https://github.com/ltl-uva/MultiModalSpeechBias)  

#### 偏见声明。  
响应于对语言技术中更清晰表述偏见的呼吁 (Blodgett et al., 2020 (https://arxiv.org/html/2605.30472#bib.bib30); Wang et al., 2022 (https://arxiv.org/html/2605.30472#bib.bib26))，我们将工作中的偏见概念化为音视频语音识别中单纯基于视觉线索（如种族和性别）变化而导致的服务质量差异，而这些线索对于转录完全相同的音频本应是无关的。我们的偏见定义与人类的反向语言刻板印象类似，并通过测试词错误率 (WER) 是否存在统计学显著变化来衡量，这种变化可能对语音识别技术的用户产生不利影响 (Mengesha et al., 2021 (https://arxiv.org/html/2605.30472#bib.bib48); Markl, 2022 (https://arxiv.org/html/2605.30472#bib.bib52))。  

## 2 相关工作  
#### 人类的多模态言语感知。  
当将完全相同的英语音频与不同人种的人脸（例如白人与南亚人脸）配对时，听众会给出不同的可理解度评分 (Kutlu, 2023 (https://arxiv.org/html/2605.30472#bib.bib12))，或与其他亚洲人脸配对时也是如此 (Rubin, 1992 (https://arxiv.org/html/2605.30472#bib.bib25))。然而，这种效应在使用视频时似乎消失 (Zheng and Samuel, 2017 (https://arxiv.org/html/2605.30472#bib.bib24))。值得注意的是，这些工作使用的样本量非常小（Zheng and Samuel (2017 (https://arxiv.org/html/2605.30472#bib.bib24)) 中只有三个明确的单词，在一个口音连续体上呈现），而我们通过自动化计算方法在更大规模上进行了测试。我们的方法受这些文献启发（特别是匹配伪装测试设置），但评估的是语音识别系统而非人类听众，并且侧重于转录而非某些研究中的说话者态度。  

#### 视觉和语音中的单模态偏见。  
在我们的工作之前，基于种族和性别的服务质量差异已在图像分类 (Buolamwini and Gebru, 2018 (https://arxiv.org/html/2605.30472#bib.bib28))、图像字幕 (Hendricks et al., 2018 (https://arxiv.org/html/2605.30472#bib.bib29); Wolfe and Caliskan, 2022 (https://arxiv.org/html/2605.30472#bib.bib27)) 和英语语音识别 (Tatman, 2017 (https://arxiv.org/html/2605.30472#bib.bib14); Koenecke et al., 2020 (https://arxiv.org/html/2605.30472#bib.bib13)) 中被证明。与我们的工作不同，这些论文均未研究多模态语音识别中的偏见。此外，语音识别偏见的研究往往关注听觉上可感知的差异（口音、方言等），而我们的工作则将相同的音频与不同的*视觉*输入配对。  

#### 多模态和全模态模型。  
多模态模型的分析绝大多数集中在以图像和文本为输入的视觉-语言模型上。例如，Fu et al. (2025 (https://arxiv.org/html/2605.30472#bib.bib38)) 证明这些模型倾向于忽略其视觉输入表示，Kamruzzaman et al. (2025 (https://arxiv.org/html/2605.30472#bib.bib34)) 分析了种族、性别和肤色如何影响这些模型的情感归属，Bui et al. (2025 (https://arxiv.org/html/2605.30472#bib.bib40)) 评估了多模态、多元文化仇恨言论，Kim et al. (2025 (https://arxiv.org/html/2605.30472#bib.bib39)) 评估了当视觉种族信息被扰动时模型的文化刻板印象。尽管最后一篇论文的方法论与我们类似（系统地扰动种族特征），但我们的工作侧重于视频和语音模态，上述研究均未涉及。与我们的工作最接近的是 Dai et al. (2024 (https://arxiv.org/html/2605.30472#bib.bib33))，他们评估了音视频语音识别对丢帧的鲁棒性，而我们则关注对输入视觉成分变化的鲁棒性。  

## 3 方法论  
语音识别的主要信号是音频。为了将视觉偏见的影响与 AVSR 中音频级别的性能差异区分开，我们需要一个具有丰富人口统计学信息的受控设置。目前没有公开可用的此类音视频数据集。因此，我们通过修改和组合现有数据集来创建一个近似实用的数据集。结果使我们能够将 AVSR 模型在不同视觉输入（不同种族和性别的面孔）下的性能与*相同*音频信号进行比较。  

### 3.1 数据集  
为了评估多模态语音识别的偏见，我们创建了一个将人脸和音频文件系统性组合的视频数据集，对应于人类匹配伪装设置中的实验 (Kutlu, 2023 (https://arxiv.org/html/2605.30472#bib.bib12); Zheng and Samuel, 2017 (https://arxiv.org/html/2605.30472#bib.bib24))。  

#### 人脸。  
为了获得高分辨率、标准化的不同种族面孔照片，我们使用芝加哥人脸数据库 (Ma et al., 2015 (https://arxiv.org/html/2605.30472#bib.bib36)) 和印度人脸集 (Lakshmi et al., 2021 (https://arxiv.org/html/2605.30472#bib.bib35))。从这些数据集中，我们选择了总共 500 张被标记为中性表情的人脸。这些面孔在五个种族之间均衡分布。使用它们自己的术语，这些种族是：亚裔美国人、黑人、印度裔亚洲人、拉丁裔/拉丁娜、白人。222在后续文本中，为简洁起见，我们使用标签：亚洲人、黑人、印度人、拉丁裔、白人。在每个种族内，我们选择的人脸在女性和男性之间均衡分布（这是数据集中仅有的两个性别标签）。这些数据集中的种族和性别是自我报告的，我们排除了选择不报告的人的面孔。我们确保每个人的脸只被包含一次。  

#### 音频。  
我们使用来自 CommonVoice 17.0 数据集 (Ardila et al., 2020 (https://arxiv.org/html/2605.30472#bib.bib37)) 的英语音频，并选择对应于以下高级口音标签的样本：UK、US 和 Indian。由于该数据集中的口音是自我识别的，每个分组都包含混合的口音档案，结果样本反映了这些粗略标签的一些多样性。我们在附录 A (https://arxiv.org/html/2605.30472#A1) 中描述了口音选择过程。由于所有音频样本都是在不同录音条件下自行录制的，音频质量差异很大。我们使用基于 CommonVoice 音频评分的启发式方法，为每种口音获得前 50 个音频样本，如附录 B (https://arxiv.org/html/2605.30472#A2) 所示。由于许多参与者未指示性别，我们忽略性别标签，专注于质量。每种口音有 50 个样本，三种口音共有 150 个不同的音频文件。由于 CommonVoice 并非设计为收集不同口音或说话者的相同文本，因此没有重复的文本。  

#### 人脸与音频配对。  
所有人脸与所有音频组合，总共得到 500 张人脸 × 3 种口音 × 50 个音频 = 75,000 个数据点。对于每种组合，我们使用 Wav2Lip++GAN (Prajwal et al., 2020 (https://arxiv.org/html/2605.30472#bib.bib18)) 创建一个音频-视频文件，其中视频与音频唇形同步，使用干净的音频数据作为输入。所有视频首先下采样到高度 256，保持原始宽高比，以适应唇形同步模型。我们使用唇形同步视频反映了音视频模型的现实和预期用途，这与大多数社会语言学工作（使用静态面孔）不同。此外，我们在附录 G (https://arxiv.org/html/2605.30472#A7) 中提供了使用静态面孔视频的结果，以供参考。  

表 1：AVSR 系统与仅音频 ASR 版本相比的每个口音平均 WER 分数。mWhisper-F = mWhisper-Flamingo medium；Gemini = Gemini-2.5-flash。由于 AVSR 主要在存在噪声时从视觉输入中受益，我们还通过向音频轨道添加信噪比 (SNR) 为 5 dB 的“嘈杂”噪声来生成噪声版本的音频-视频文件。我们从 Rouditchenko et al. (2025 (https://arxiv.org/html/2605.30472#bib.bib15)) 获得此噪声，该噪声又从 MUSAN 数据集 (Snyder et al., 2015 (https://arxiv.org/html/2605.30472#bib.bib44)) 中采样。  

| 模型 | 口音 | ΔWER（最大-最小） | 种族 | 性别 | 交叉 |
|------|------|-------------------|------|------|------|
| 无噪声 (SNR=∞) | | | | | |
| mWhisper-F | Indian | 2.06^\phantom{\*}\} (Indian-Asian) | 1.14^\phantom{\*}\} (M-F) | 4.05^\{\*\} (Indian male-Asian male) |
| mWhisper-F | US | 0.72^\phantom{\*}\} (Black-Asian) | 0.43^\phantom{\*}\} (M-F) | 0.98^\phantom{\*}\} (Black male-Latinx female) |
| mWhisper-F | UK | 0.51^\phantom{\*}\} (Indian-Asian) | 1.34^\{\*\} (M-F) | 2.27^\{\*\} (Indian male-Latinx female) |
| Gemini | Indian | 0.77^\phantom{\*}\} (Indian-White) | 0.25^\phantom{\*}\} (F-M) | 1.19^\{\*\} (Indian male-White male) |
| Gemini | US | 0.13^\phantom{\*}\} (Indian-White) | 0.08^\phantom{\*}\} (M-F) | 0.26^\phantom{\*}\} (Asian male-Asian female) |
| Gemini | UK | 0.49^\phantom{\*}\} (Indian-Black) | 0.35^\phantom{\*}\} (M-F) | 0.90^\phantom{\*}\} (Indian male-Black female) |
| 嘈杂噪声 (SNR=5) | | | | | |
| mWhisper-F | Indian | 1.01^\phantom{\*}\} (Indian-Asian) | 0.10^\phantom{\*}\} (F-M) | 1.71^\phantom{\*}\} (Indian male-Asian male) |
| mWhisper-F | US | 1.75^\{\*\} (Indian-Asian) | 1.45^\{\*\} (M-F) | 3.95^\{\*\} (Indian male-Asian female) |
| mWhisper-F | UK | 0.91^\phantom{\*}\} (Black-White) | 0.47^\phantom{\*}\} (F-M) | 2.84^\{\*\} (Indian male-Latinx male) |
| Gemini | Indian | 1.49^\{\*\} (Asian-White) | 0.51^\phantom{\*}\} (M-F) | 2.73^\{\*\} (Asian male-White male) |
| Gemini | US | 0.53^\phantom{\*}\} (Asian-White) | | | |

你的多模态语音模型说我长了一张适合广播的脸

相似文章

评估主动式对话智能体中的多模态情绪识别：一项用户研究

RedVox：跨语言语音模型的安全与公平性差距

基于音素的自动语音识别系统中的偏见评估：对IPA转录模型的分析

课堂环境下的多模态说话人识别

StylisticBias: 少数人类视觉线索主导多模态大语言模型中的大部分社会偏见

提交意见反馈