公平输出,偏见内部:大语言模型在高风险决策中潜在偏见的因果效力与非对称性

arXiv cs.AI 论文

摘要

本文研究了指令微调的大语言模型如何在高风险决策(如抵押贷款承销)中表现出公平输出,同时保留有偏见的内部表征,表明这些隐藏偏见具有因果效力、非对称性,且可通过激活引导加以利用。

arXiv:2605.15217v1 公告类型:新 摘要:指令微调的语言模型在高风险决策中表现出行为公平性,但在其内部表征中保留了带有偏见的关联。然而,这些被抑制的表征是否会影响模型输出——以及这种因果效力在不同人口群体之间是否对称——仍未知。我们使用仅因种族相关姓名而不同的匹配申请,研究了开放权重模型在抵押贷款承销中的应用,揭示了一个关键脱节:模型在输出层面没有偏见,但在各层中保留并放大了人口统计表征。通过激活引导和新型跨层干预,我们证明了这些被抑制的信息与决策相关:当在关键层重新注入时,会导致近乎完全的决策反转。关键的是,这种潜在偏见是非对称的——引导干预会影响一个方向的人口统计决策,而在反向时产生极小影响——并且容易受到对抗性提示工程和参数高效微调的影响。这些发现表明,仅关注输出的行为审计是不够的:公平输出可能掩盖可被利用的内部偏见。它们还激励了在高风险决策的人工智能治理中,结合输出评估与表征分析的双层测试框架。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:30

# 公平输出,偏见内在:高风险决策中LLMs潜在偏见的因果效力与不对称性
来源:https://arxiv.org/html/2605.15217
Jagdish Tripathy, Marcus BuckmannBuckmann: 英格兰银行,marcus\.buckmann@bankofengland\.co\.uk (https://arxiv.org/html/2605.15217v1/[email protected])\. Tripathy: 英格兰银行,jagdish\.tripathy@bankofengland\.co\.uk (https://arxiv.org/html/2605.15217v1/[email protected])\. 初稿。未经作者许可请勿引用。文中任何观点仅代表作者本人,不代表英格兰银行立场,也不构成英格兰银行政策。因此,本文不应被报道为代表英格兰银行或货币政策委员会、金融政策委员会或审慎监管局成员的观点。本研究得到了BlueDot Impact关于人工智能安全研究的计算资助以及英格兰银行的支持。

###### 摘要

经过指令微调的语言模型在高风险决策中表现出行为层面的公平性,同时在其内部表征中保留了有偏的关联。然而,这些被抑制的表征是否会影响模型输出——以及这种因果效力是否在不同人口群体间对称——仍然未知。我们利用仅在种族相关名称上有所差异的匹配申请,研究了开源权重模型在抵押贷款承保中的应用,揭示了一个关键脱节:模型在输出层面没有偏见,却在各层中保留并放大了人口统计表征。通过激活引导和新型跨层干预,我们证明这些被抑制的信息与决策相关:当在关键层重新注入时,它们能导致近乎完全的决策反转。关键在于,这种潜在偏见是不对称的——引导干预会影响一个方向上的人口统计决策,而在反向方向上影响甚微——并且容易受到对抗性提示工程和参数高效微调的攻击。这些发现表明,仅关注输出的行为审计是不够的:公平输出可能掩盖可被利用的内部偏见。这也推动了双重测试框架的建立,结合输出评估与表征分析,用于高风险决策中的人工智能治理。

关键词:大型语言模型;算法公平性;内部表征;机制可解释性;激活引导;人工智能治理;金融服务

## 1. 引言

公平输出是否能确保安全部署?我们以抵押贷款承保作为LLM在高风险金融决策中应用的测试案例来研究这个问题。已知指令微调模型在保持公平输出的同时存在有偏的内部表征——但这些隐藏状态是否与决策相关(具有因果效力),以及其影响是否在不同人口群体间对称,仍然未知。我们采用匹配对设计来填补这一空白,该设计在保持所有信用相关特征不变的情况下扰动申请人的种族。

我们发现,在多个前沿开源权重模型中,尽管输出层面保持均衡,隐藏的人口统计表征在各层中单调放大。这些表征与决策相关:当在敏感层重新注入时,它们能诱导出近乎完全的决策反转。关键在于,这种潜在偏见是不对称的:将表征向某一人群分布引导的干预会系统性地改变决策,而在反向方向上效果甚微。我们提供了一个机制解释,说明模型如何同时放大人口统计信号并抑制其对输出的影响,并表明这种抑制(而非消除)过程从安全部署的角度创造了可被利用的脆弱性。

因此,公平输出不足以确保[undefp (https://arxiv.org/html/2605.15217#bib.bibx17)]和[undeff (https://arxiv.org/html/2605.15217#bib.bibx7)]等治理框架所规定的模型安全性,这些框架强调检测、预防和缓解偏见对于金融服务中安全采用人工智能的重要性。基于输出的审计——当前的标准——未能达到这一要求,因为通过行为公平性测试却保留了与决策相关的隐藏状态的模型(正如我们在研究中也记录的那样)容易受到提示工程、对抗性微调和激活引导的影响。由于偏见等结果无法定位到特定模型组件,使得检测和补救困难,模型的不透明性进一步加剧了风险。

我们通过将最先进的开源权重指令微调模型与遵循[undefi (https://arxiv.org/html/2605.15217#bib.bibx10)]的黄金标准审计设计相结合,研究LLM在高风险金融决策场景——抵押贷款承保——中的应用。我们创建了一个合成数据集,包含配对提示,这些提示共享信用相关特征,但种族的关联名称不同,从而允许我们测试模型输出的行为公平性,并比较各模型层间的内部表征。我们辅以激活引导测试,包括一种新颖的跨层方法,以评估隐藏状态中的人口统计信息能否因果性地影响抵押贷款承保决策。此外,我们记录了模型对提示工程和参数高效微调的脆弱性,通过安慰剂测试增强了我们的因果主张,并在多个开源权重模型中复制了核心发现。

我们的结果证实,LLMs(与指令微调模型中的安全护栏一致)在仅因种族关联名称不同的抵押贷款承保提示中,在批准率和置信度边际上表现出行为均衡。然而,这种均衡与显著的表征分歧共存:与两种种族相关的隐藏状态平均差异的大小单调增加(从0到约1200,在Gemma-3中可达倒数第二层)。激活引导揭示这些信息与决策相关(具有因果效力),但存在关键的不对称性。引导在特定方向有效(例如,将白人类联提示的激活向黑人群体的分布引导),但在反转目标群体和引导方向时效果明显减弱。这种不对称性也因模型而异:Gemma-3中的不对称性质与Qwen2.5中的完全相反。

尽管表征分歧在各层中放大,但较后层可能对引导局部不敏感,尤其是在Gemma-3中。我们引入了跨层引导——利用较后层的信号干预对引导敏感的中间层——以测试较后层的分歧是否仍然与决策相关。我们发现较后层的分歧高度与决策相关,而不仅仅是累积的计算噪声。这提供了一个机制解释,说明模型如何在保持输出均衡的同时维持强大的隐藏分歧:它们可以学会抑制这些表征对决策的影响,同时在最终层展平分歧,有效地充当故障安全机制。

基于种族内比较的安慰剂测试表明,放大的人口统计信号不能简单地用标记级别差异或种族相关名称的处理来解释。与存在与决策相关的隐藏状态一致,我们发现一个攻击性LLM可以迭代地调整提示,从而对具有黑人关联名称的抵押贷款申请人引入显著偏见,即使没有明确要求有偏的结果。我们还表明,模型可以通过最小的低秩适应进行微调以产生一致偏见,仅需在一个层中调整少于6000个可调参数。

然而,尽管隐藏状态强大,我们无法使用稀疏自编码器将种族表征的分歧归因于特定特征。这凸显了将种族偏见等复杂属性追溯到特定模型组件并增强决策可解释性的持续挑战。

因此,我们表明,在前沿指令微调模型中,即使输出看似公平,有偏的隐藏状态仍可保持与决策相关(因果效力)。这种信号对输出的非对称影响揭示了一种无法仅从行为测试中推断出的方向性偏见。我们的方法贡献在于一种跨层引导测试,用于检验放大的人口统计表征是否是仍然与决策相关的信号,而非累积的计算噪声。

综合来看,我们的结果对公平性审计过程具有启示意义。首先,将引导实验与黄金标准审计设计相结合,有助于识别跨领域的内部表征中的偏见。其次,将这些偏见与模型对对抗性攻击的易感性联系起来,可以更好地评估模型在面对实际部署中遇到的扰动时的鲁棒性。

相关文献。

关于算法偏见的研究表明,语言模型存在放大训练数据中歧视性模式的风险[undefj (https://arxiv.org/html/2605.15217#bib.bibx11),undefh (https://arxiv.org/html/2605.15217#bib.bibx9)]。实证研究记录了预训练语言模型中跨种族[undefn (https://arxiv.org/html/2605.15217#bib.bibx15),undefx (https://arxiv.org/html/2605.15217#bib.bibx25)]、性别和年龄[undefv (https://arxiv.org/html/2605.15217#bib.bibx23)]以及宗教[undefae (https://arxiv.org/html/2605.15217#bib.bibx32)]的刻板关联。

为防止LLM的有偏行为,模型提供商对其模型进行微调以抑制这种行为。基于人类反馈的强化学习(RLHF)[undefab (https://arxiv.org/html/2605.15217#bib.bibx29)]和直接偏好优化(DPO)[undefag (https://arxiv.org/html/2605.15217#bib.bibx34)]的指令微调已成为将语言模型与人类偏好对齐的重要范式。[undefe (https://arxiv.org/html/2605.15217#bib.bibx6)]引入了宪法人工智能,它使用模型自我批评来减少有害输出,无需人工标记负面示例。

这些方法显著改善了行为安全性,模型产生较少有毒、有偏或有害的输出。然而,研究表明这些提高公平性的尝试可能是脆弱的。例如,[undefm (https://arxiv.org/html/2605.15217#bib.bibx14)]和[undefa (https://arxiv.org/html/2605.15217#bib.bibx2)]观察到指令微调模型中的偏见过度矫正。尽管LLMs成功抑制了显式的有偏响应,但其行为公平性与隐含偏见共存,例如在需要将正面和负面词汇与黑人或白人群体关联的任务中[undefd (https://arxiv.org/html/2605.15217#bib.bibx5),undefac (https://arxiv.org/html/2605.15217#bib.bibx30)]。此外,对抗性提示可以绕过模型的安全措施引发歧视性响应[undefs (https://arxiv.org/html/2605.15217#bib.bibx20),undefl (https://arxiv.org/html/2605.15217#bib.bibx13),undefk (https://arxiv.org/html/2605.15217#bib.bibx12)]。

其他研究表明,通过适配器进行参数高效微调[undefy (https://arxiv.org/html/2605.15217#bib.bibx26)]可以仅用少量训练样本和小计算预算有效移除模型的护栏[undefaf (https://arxiv.org/html/2605.15217#bib.bibx33)]。111这在为其他目的微调模型时甚至可能偶然发生[undefaf (https://arxiv.org/html/2605.15217#bib.bibx33)]。

[undefb (https://arxiv.org/html/2605.15217#bib.bibx3)]和[undefw (https://arxiv.org/html/2605.15217#bib.bibx24)]表明,即使LLMs拒绝产生有偏输出,模型中仍存在潜在偏见,并且可以通过在问答设置中绕过拒绝来解锁。相反,其他研究发现,输出偏见可以通过对内部激活进行有针对性的引导来缓解[undefz (https://arxiv.org/html/2605.15217#bib.bibx27),undefai (https://arxiv.org/html/2605.15217#bib.bibx36)]。

总的来说,这些贡献表明对齐主要通过对有问题表征的抑制而非消除来运作。我们在这一见解基础上做出了三项贡献。首先,我们表明高风险决策任务中公平输出与放大且与决策相关的人口统计表征共存,确立了行为审计是不够的。其次,这些被抑制的表征具有因果效力且不对称:它们在一个方向上改变决策,而在反向方向上影响甚微,这是一种无法仅从输出中检测到的方向性偏见。第三,我们表明隐藏的人口统计表征既不是安全休眠也不结构均匀:这些表征可以解释模型对提示调整和引导的脆弱性,并且分布在一个抵抗SAE等可解释性工具定位的子空间中。

具体在金融服务领域,LLMs作为独立的信用风险模型并不标准,在结构化表格数据上的性能通常落后于已有的预测模型[undefc (https://arxiv.org/html/2605.15217#bib.bibx4),undef (https://arxiv.org/html/2605.15217#bib.bibx1),undefo (https://arxiv.org/html/2605.15217#bib.bibx16)]。尽管如此,它们从非结构化数据中提取信号的快速提升的能力已将其定位为信用建模的候选模型,能够直接从非结构化文本中推导相关特征[undefq (https://arxiv.org/html/2605.15217#bib.bibx18),undefah (https://arxiv.org/html/2605.15217#bib.bibx35)]。因此,几项研究指出了将LLM与传统建模方法相结合的混合建模方法[undefaa (https://arxiv.org/html/2605.15217#bib.bibx28),undefu (https://arxiv.org/html/2605.15217#bib.bibx22)]。LLM的偏见也可能通过这些混合方法传播到信贷决策中,并增加现有算法方法中明显存在的偏见可能性[undefg (https://arxiv.org/html/2605.15217#bib.bibx8),undefr (https://arxiv.org/html/2605.15217#bib.bibx19)]。

## 2. 方法论

### 2.1 合成数据:配对提示

我们构建了一个抵押贷款申请人的合成数据集,以研究现代LLM能否解析风险相关特征,是否做出有偏的承保决策,以及与此类决策相关的机制。我们遵循[undefi (https://arxiv.org/html/2605.15217#bib.bibx10)]的审计研究方法,创建共享风险相关特征(如收入和信用评分)但申请人种族不同的配对提示。每个提示包含一个种族关联名称(15个黑人或15个白人姓名之一)、一个信用评分(20个信用评分桶之一)、贷款价值比(或LTV,15个LTV桶之一)、地点(从美国10个县中随机选择)、收入(从40k - 150k美元范围内随机选择)和贷款金额(从200k - 1百万美元范围内随机选择)。总体而言,我们创建了1500个配对提示。附录A.1 (https://arxiv.org/html/2605.15217#A1.SS1)分享了这些变量的支撑集以及一个将申请人姓名和风险相关特征结合起来的提示示例,用于从LLM引出抵押贷款承保决策作为审计的一部分。

### 2.2 语言模型

本文的核心结果是基于将提示传递给Gemma-3-12B-IT (https://huggingface.co/google/gemma-3-12b-it),一个48-

相似文章

受控LLM激活的非满射性

Hugging Face Daily Papers

本文证明,LLM中的激活引导产生的内部状态无法通过任何文本提示复制,从而在白盒可控性和黑盒提示之间建立了形式上的区分。

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。