并列比较加剧语言模型中的方言偏见

arXiv cs.CL 2026/05/26 04:00 论文

dialect-bias language-models fairness ai-bias counterfactual-fairness research

摘要

该研究发现，语言模型在并列比较标准美式英语和非裔美国人白话英语时，会表现出更强的方言偏见，即使经过安全微调也是如此。反事实公平微调可以在孤立情况下减少某些偏见，但在对比设置中并不一致。

arXiv:2605.24384v1 公告类型：新摘要：语言模型（LMs）可能会根据说话者的方言差异表现出系统性偏见，即使没有方言标签，这种行为被称为隐性方言偏见。在本工作中，我们通过评估语言模型如何将刻板特征（来源于社会心理学关于种族偏见的研究）与意图等价的标准美式英语（SAE）和非裔美国人白话英语（AAVE）推文相关联，来量化在线话语中的隐性方言偏见。先前的研究表明，在孤立评估推文时，语言模型将更多负面刻板印象与AAVE关联起来，但我们惊讶地发现，当SAE/AAVE推文对进行并列比较时，这种偏见显著加剧——这种设置更接近模型用于排序候选者的高影响力决策场景。当明确指定方言标签时，偏见只会进一步恶化。鉴于商业开发者为减轻其语言模型中的偏见付出了大量努力，这一点令人震惊。令人鼓舞的是，我们表明反事实公平微调可以减轻某些刻板特征的隐性方言偏见，在孤立评估推文时减少了平均差异，然而，当并列评估SAE/AAVE推文时，这些改进在所有特征上并不一致。我们的研究结果表明，现有的隐性方言偏见评估设置可能低估了其严重性，特别是在对比设置中。此外，即使在安全对齐微调之后，显性方言偏见仍然显著，表明这仍是一个未解决的问题，并激发了更稳健的评估和缓解框架的需求。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:02

# 并列比较加剧了语言模型中的方言偏见  
来源：https://arxiv.org/html/2605.24384 (2026)  

###### 摘要。  
语言模型（LM）可能会根据用户方言差异表现出系统性偏见，即使没有显式的方言标签，这种行为被称为隐性方言偏见。本文中，我们通过评估语言模型如何将刻板特质（源自社会心理学关于种族偏见的研究）与标准美式英语（SAE）和非洲裔美国英语（AAVE）中意图等价的推文相关联，来量化在线话语中的隐性方言偏见。虽然先前工作表明，在单独评估推文时，语言模型会为AAVE关联更多负面刻板印象，但我们惊奇地发现，当SAE/AAVE推文对进行并列比较时，这种偏见会显著加剧——这种设置更贴近模型用于候选人排序等高影响力决策场景。当显式指定方言标签时，偏见只会进一步恶化。考虑到商业开发者为了缓解语言模型偏见所投入的大量努力，这一发现尤为令人震惊。令人鼓舞的是，我们表明反事实公平性微调可以在某些刻板特质上缓解隐性方言偏见，在单独评估推文时减少平均差异；然而，当并列评估SAE/AAVE推文时，这些改进并不在所有特质上一致保持。我们的发现表明，现有的隐性方言偏见评估设置可能低估了其严重性，特别是在对比性设置中。此外，即使在安全对齐微调后，显性方言偏见仍然显著，表明这仍是一个未解决的问题，并促使我们需要更稳健的评估和缓解框架。

隐性方言偏见、显性方言偏见、反事实公平性、微调、大语言模型  

††booktitle:\acmConference@name(\acmConference@shortname),\acmConference@date,\acmConference@venue  
††journalyear:2026  
††copyright:cc  
††conference:2026年ACM公平、问责与透明会议；2026年6月25-28日；加拿大蒙特利尔  
††booktitle:2026年ACM公平、问责与透明会议（FAccT '26），2026年6月25-28日，加拿大蒙特利尔  
††doi:10.1145/3805689.3812217  
††isbn:979-8-4007-2596-8/2026/06  
††ccs:计算方法 自然语言处理  
††ccs:社会与专业主题 文化特征  

## 1. 引言  

参考说明 图 1. 语言模型中隐性方言偏见的评估（上方）与缓解（下方）。上方：我们通过提示语言模型对意图等价的SAE和AAVE推文对，在12个特质上（李克特1-5分）进行评分，来评估隐性方言偏见。使用匹配伪装探查技术，模型在两种条件下进行评估：绝对提示（每条推文独立评分）和对比提示（SAE和AAVE推文并列评分）。我们发现，在对比设置下偏见显著加剧，并且在某些情况下，当显式包含方言标签时偏见变得更严重。下方：我们应用反事实公平性微调，训练模型对SAE/AAVE推文对分配相同的特质分数。我们发现这对减少几个特质的效应量（例如，对AAVE的偏见）是有效的，具体包括：不成熟、愚蠢、语无伦次、决心和成熟。参见附录§E (https://arxiv.org/html/2605.24384#A5) 以获取带有模型生成特质分数的定性SAE/AAVE示例。LLaMA模型变体的额外结果见附录§C (https://arxiv.org/html/2605.24384#A3)。我们观察到，虽然整体趋势在各变体之间方向相似，但隐性偏见在隐性设置中并非一致加剧，而在显性设置中仍然显著。  

警告：本文包含基于方言的冒犯性刻板印象示例。  

语言模型（LM）的回答受到查询语言特征的影响，例如词汇选择、语气和语法（Görge et al., 2025 (https://arxiv.org/html/2605.24384#bib.bib18); Cheng and Amiri, 2025 (https://arxiv.org/html/2605.24384#bib.bib43)）。由于方言受到文化、身份和社群的影响，来自不同人口背景的用户可能以不同方式表达相同意图，这可能导致语言模型对不同用户产生不同的结果（Shen et al., 2024 (https://arxiv.org/html/2605.24384#bib.bib19); Basoah et al., 2025 (https://arxiv.org/html/2605.24384#bib.bib52)）。令人担忧的是，先前研究表明语言模型表现出方言偏见（例如，通过种族-语言刻板印象），即相对于标准美式英语（SAE）查询，非洲裔美国英语（AAVE）查询被关联更多负面刻板印象。此外，语言模型还被证明同时表现出隐性方言偏见（当查询中没有显式方言标签时）（Hofmann et al., 2024 (https://arxiv.org/html/2605.24384#bib.bib8)）以及显性方言偏见（当模型上下文中包含显式方言标签，如群体标签或身份属性时）（Hofmann et al., 2024 (https://arxiv.org/html/2605.24384#bib.bib8)）。先前工作已表明这两类偏见各自独立存在，但未比较其强度，即模型在显性与隐性设置中是否表现出更多偏见。  

Hofmann et al. (2024 (https://arxiv.org/html/2605.24384#bib.bib8)) 通过引入匹配伪装探查技术解决了隐性方言偏见问题，该技术提示语言模型基于意图等价的AAVE和SAE文本来对说话者做出判断。他们考虑了语义匹配设置（AAVE和SAE文本语义等价）和非语义匹配设置（反映现实世界中方言与话题内容的相关性），证明语言模型将AAVE文本与比SAE文本更负面的特质相关联。然而，他们的设置仅限于评估当模型被要求单独对一个方言生成特质时的偏见，而不是在方言之间进行显式比较。在现实世界的场景中，如招聘、教育、内容审核和司法决策（Black and van Esch, 2020 (https://arxiv.org/html/2605.24384#bib.bib53); Medvedeva et al., 2020 (https://arxiv.org/html/2605.24384#bib.bib54); Wang et al., 2024 (https://arxiv.org/html/2605.24384#bib.bib55)），模型经常被要求并列比较文本并做出对比性判断（Fleisig et al., 2024 (https://arxiv.org/html/2605.24384#bib.bib21)）。此外，虽然Hofmann et al. (2024 (https://arxiv.org/html/2605.24384#bib.bib8)) 表明现有的缓解策略（如扩大模型规模或在训练中加入人类反馈）对减少隐性方言偏见无效，但他们并未探索替代缓解方法。  

相比之下，我们的工作比较了两种设置下的显性与隐性方言偏见：绝对设置和对比设置。在绝对设置中（§4.1.1 (https://arxiv.org/html/2605.24384#S4.SS1.SSS1)），我们提示语言模型分别对SAE和AAVE推文进行评分。在对比设置中（§4.2.1 (https://arxiv.org/html/2605.24384#S4.SS2.SSS1)），SAE和AAVE推文并列呈现，这反映了模型被要求比较、排序或选择多个用户或输入的现实场景。  

我们将发现植根于现有刻板印象研究，即普林斯顿三部曲¹¹¹一项关于社会、文化和种族刻板印象的系列研究以及社会心理学文献（Katz and Braly, 1933 (https://arxiv.org/html/2605.24384#bib.bib11); Gilbert, 1951 (https://arxiv.org/html/2605.24384#bib.bib31); Karlins et al., 1969 (https://arxiv.org/html/2605.24384#bib.bib32)）。具体而言，我们不依赖自由形式的特质生成，而是提示语言模型使用李克特量表，在图1 (https://arxiv.org/html/2605.24384#S1.F1) 所示的12个刻板特质封闭集上对每条推文的内容²²²我们不将AAVE或SAE说话者归因于特定人口群体。我们特意提示模型根据推文的语言形式做出判断，在显性条件下我们提供方言标签以避免将方言映射到人口群体。进行评分。我们选择了六个效价对：智能/愚蠢、平静/攻击性、成熟/不成熟、礼貌/粗鲁、言辞清晰/语无伦次、决心/懒惰。  

最后，我们提出反事实公平性微调（Kusner et al., 2017 (https://arxiv.org/html/2605.24384#bib.bib50); Kim and Kim, 2025 (https://arxiv.org/html/2605.24384#bib.bib29)）（§4.3 (https://arxiv.org/html/2605.24384#S4.SS3)）作为一种缓解隐性方言偏见的有效技术。为此，我们在工作中提出以下研究问题：  
RQ1: 与孤立评估（绝对提示）相比，并列评估AAVE和SAE推文（对比提示）是否会加剧语言模型中的方言偏见？  
RQ2: 反事实公平性微调能否缓解语言模型中的隐性方言偏见？  

在此过程中，我们做出了以下主要贡献：  

1. (1) 在回答RQ1（§4.1 (https://arxiv.org/html/2605.24384#S4.SS1), §4.2 (https://arxiv.org/html/2605.24384#S4.SS2)）时，我们使用匹配伪装探查技术（例如，“一个说[SAE / AAVE推文]的人是[LM生成的特质]”），在一个配对的SAE和AAVE意图等价推文数据集（Groenwold et al., 2020 (https://arxiv.org/html/2605.24384#bib.bib12)）上，测量了两种设置（绝对和对比）下的隐性方言偏见。在这两种设置中，我们发现语言模型将SAE推文与正面特质关联，将AAVE推文与负面特质关联。令人惊讶的是，我们观察到这些差异在对比设置中被放大，这表明比较性语境可能加剧隐性方言偏见，使其超出在孤立评估推文时已观察到的程度。  

2. (2) 为了直接比较由显式方言标签驱动的偏见与仅由方言变异内隐出现的偏见，我们通过在提示中显式指定推文是用AAVE还是SAE撰写的来构建显性方言偏见基线（§3.2 (https://arxiv.org/html/2605.24384#S3.SS2)）。与先前工作（Hofmann et al., 2024 (https://arxiv.org/html/2605.24384#bib.bib8)）相反，我们发现显式指定方言名称会加剧偏见，导致比隐性设置更大的效应量。  

3. (3) 我们将结果植根于现实世界的案例研究和普林斯顿三部曲的先前刻板印象研究（§5 (https://arxiv.org/html/2605.24384#S5)），发现了与先前记录的刻板印象一致的规律。具体而言，我们发现AAVE内容在智能、礼貌和言辞清晰等特质上始终被评价更负面，而在攻击性等特质上得分更高。  

4. (4) 在回答RQ2时，我们提出了一种有效的偏见缓解策略，通过将反事实公平性微调（Kusner et al., 2017 (https://arxiv.org/html/2605.24384#bib.bib50); Kim and Kim, 2025 (https://arxiv.org/html/2605.24384#bib.bib29)）适应到隐性方言偏见设置，使用绝对设置中模型生成的SAE评分作为AAVE和SAE推文的真实标准（§4.3 (https://arxiv.org/html/2605.24384#S4.SS3)）。我们对模型进行微调以最小化AAVE和SAE推文之间的评分差异。我们将此与基于提示的去偏方法（§4.3 (https://arxiv.org/html/2605.24384#S4.SS3)）进行比较，后者在大多数情况下可以减少偏见，但由于其对提示措辞和采样变异的敏感性，导致跨运行的不一致缓解，因此可靠性较低。相比之下，我们的方法针对以下特质减少了LLaMA-3.1-8B对AAVE推文的偏见：智能、平静、礼貌、成熟和言辞清晰。  

我们在图1 (https://arxiv.org/html/2605.24384#S1.F1) 中总结了我们的方法论。  

我们的发现强调了语言模型中隐性方言偏见的持久性、对比性语境放大这些效应的方式，以及针对性缓解策略的潜力。我们希望我们的工作能促使在现实世界环境中部署和评估语言模型时更广泛地考虑隐性方言偏见。  

我们的代码已公开提供³³³https://dill-lab.github.io/dialect_bias_llms/。  

## 2. 相关工作  

语言模型在广泛的NLP任务中展现出令人印象深刻的能力，但大量研究表明，这些模型可能会延续社会偏见，特别是在性别、种族和文化方面（Guo et al., 2024 (https://arxiv.org/html/2605.24384#bib.bib46); Bolukbasi et al., 2016 (https://arxiv.org/html/2605.24384#bib.bib23)），并在招聘和刑事司法等高风控领域带来特别令人担忧的后果（Armstrong et al., 2024 (https://arxiv.org/html/2605.24384#bib.bib25); Rajkomar et al., 2018 (https://arxiv.org/html/2605.24384#bib.bib24)）。  

Fleisig et al. (2024 (https://arxiv.org/html/2605.24384#bib.bib21)) 通过提示模型在开放式回答生成设置中使用母语者撰写的非正式提示，研究了GPT-3.5-Turbo和GPT-4在十种英语方言中的语言偏见。他们的发现揭示了由于对这些方言理解有限而导致的差异对待和回答质量下降的模式。类似地，Gupta et al. (2024 (https://arxiv.org/html/2605.24384#bib.bib10)) 引入了AAVE自然语言理解评估（AAVENUE），这是一个旨在评估语言模型在SAE和AAVE两种语言中自然语言理解任务性能的基准。他们的评估显示，语言模型在AAVE上的翻译准确性得分始终低于SAE。  

我们扩展这项工作，以更好地理解语言模型如何理解方言。虽然AAVENUE论文利用翻译任务得出准确性分数，但我们使用基于意图等价推文和预定义特质的评分系统，以捕捉模型对方言理解的微妙和更细致的视角。  

针对隐性方言偏见的挑战，Hofmann et al. (2024 (https://arxiv.org/html/2605.24384#bib.bib8)) 引入了匹配伪装探查技术，比较语言模型对标准美式英语（SAE）和非洲裔美国英语（AAVE）推文的回答。他们发现，使用语言模型中的对数似然，AAVE推文的作者更可能被分配负面特质（例如，肮脏、懒惰），而SAE推文的作者则不然。他们还测试了现有显性偏见缓解策略（例如，人类反馈和模型规模化）在缓解隐性方言偏见方面的适用性。他们得出结论，这些策略在很大程度上无效，有时甚至对方言偏见适得其反，尤其是在可雇佣性和犯罪性预测等情境中。  

Bui et al. (2025 (https://arxiv.org/html/2605.24384#bib.bib67)) 通过比较在语义等价但方言变化输入上的输出，研究方言作为语言模型中隐式社会指标的功能。他们发现模型加剧了预存观念，并将更负面的含义归因于某些德语方言，相比于标准德语，这表明语言元素可以影响偏见性评估。这建立在社会语言学证据之上，即方言通常与刻板印象相关，而语言模型可以在没有显式人口统计线索的情况下再现这些刻板印象。这项工作表明，这些效应反映了模型区分方言变异并将其映射到刻板特质的能力。我们的研究进一步说明了语言模型如何可能延续针对AAVE使用者的负面刻板印象。  

相关工作部分继续讨论...  

（注：原文在“We extend this work...”之后似乎有更多内容，但提供的文本截止于此。如果需要，可以继续翻译剩余部分，但根据指令，我们只翻译给定的内容。目前给出的文本在“Our study further illustrates...”后结束，因此翻译到此为止。）

并列比较加剧语言模型中的方言偏见

相似文章

LLMs悄悄纠正非裔美国人英语：通过激活操控审计和缓解方言偏见

RedVox：跨语言语音模型的安全与公平性差距

Semantic DLM+：通过转移核设计中的偏差-方差权衡改进扩散语言模型

差分隐私如何影响大语言模型中的社会偏见？一项系统性评估

OptimismBench：预测语言模型判断中的偏见与对齐效应

提交意见反馈