大型语言模型中的解释公平性：关于LLM在不同人口群体中如何证明决策的实证分析

arXiv cs.CL 2026/05/12 04:00 论文

llm-fairness explainable-ai bias-mitigation empirical-study algorithmic-fairness nlp

摘要

本文提出了“解释公平性分类法”（Explanation Fairness Taxonomy, EFT），以分析大型语言模型（LLM）在不同人口群体中证明决策时的差异，研究发现尽管决策本身保持平衡，但在解释的质量和语调上仍存在显著偏差。

arXiv:2605.08671v1 公告类型：新论文摘要：大型语言模型（LLMs）越来越多地被部署不仅用于做出决策，还用于解释这些决策。虽然人工智能决策公平性已得到广泛研究，但人工智能解释的公平性（即LLM是否在不同的社会人口群体中以相同的质量、深度、语调和语言复杂性来证明决策）却鲜少受到关注。本文提出了“解释公平性分类法”（EFT），这是一个包含五个形式化定义且可操作化维度的框架：详细程度差异、情感倾向差异、认知保留（epistemic hedging）差异、与决策关联的解释差异以及词汇复杂度差异。该分类法在一个受控的实证研究中得以实例化，研究涵盖了80个提示模板、四个具有重大影响的决策领域（招聘、医疗分诊、信用评估、法律裁决）以及五种大型语言模型：GPT-4.1、Claude Sonnet、LLaMA 3.3 70B、GPT-OSS 120B 和 Qwen3 32B。文中引入了两种新型黑盒指标：保留密度评分（Hedging Density Score, HDS）和解释忠实度代理指标（Explanation Faithfulness Proxy, EFP），后者作为衡量与决策关联的解释变化的启发式指标。在多达400组提示对的研究中，所有八项EFT指标均显示出统计上显著的差异（Cohen's d 范围从小到显著，所有经Benjamini-Hochberg校正后的p值均小于10^(-62)）。模型选择与差异幅度密切相关：Qwen3 32B 的详细程度差异比 LLaMA 3.3 70B 大5.9倍。两种基于提示的缓解策略显示EFP差异显著减少（78%-95%），但对风格维度没有显著影响，这与以下假设一致：风格上的解释不平等编码在预训练数据分布中，仅通过部署层面的指令无法解决。本文提供了一个可复现的测量框架，用于解释层面的公平性审计，这对人工智能监管和部署实践具有重要意义。

查看原文

查看缓存全文

缓存时间: 2026/05/12 06:57

# I. 引言

来源: https://arxiv.org/html/2605.08671

**大型语言模型中的解释公平性：关于 LLM 如何跨人口统计群体证明决策合理性的实证分析**

Gautam Veldanda
独立研究员
[email protected]

###### 摘要

大型语言模型（LLMs）越来越多地被部署不仅用于做出决策，还用于解释这些决策。尽管人工智能决策公平性已得到广泛研究，但人工智能*解释*的公平性（即 LLM 是否以同等质量、深度、语气和语言复杂性向不同人口统计群体证明决策的合理性）却鲜少受到关注。本文引入了**解释公平性分类体系（Explanation Fairness Taxonomy, EFT）**，这是一个包含五个正式定义且可操作化的维度的框架：冗长度差异（Verbosity Disparity）、情感差异（Sentiment Disparity）、认识论对冲差异（Epistemic Hedging Disparity）、决策关联解释差异（Decision-Linked Explanation Disparity）以及词汇复杂度差异（Lexical Complexity Disparity）。该分类体系通过一项受控实证研究得以实例化，涵盖 80 个提示模板、四个具有重大影响的决策领域（招聘、医疗分诊、信贷评估、法律判决）以及五种 LLM：GPT-4.1、Claude Sonnet、LLaMA 3.3 70B、GPT-OSS 120B 和 Qwen3 32B。本文引入了两个新颖的黑盒指标：对冲密度分数（Hedging Density Score, HDS）和解释忠实度代理指标（Explanation Faithfulness Proxy, EFP），后者作为决策关联解释变化的启发式指标。在多达 400 对提示中，所有八个 EFT 指标均显示出统计上显著的差异（Cohen's $d$ 范围从小到大的效应量，所有 $p_{\text{BH}} < 10^{-62}$）。模型选择与差异幅度密切相关：Qwen3 32B 的冗长度差异比 LLaMA 3.3 70B 大 $5.9$ 倍。两种基于提示的缓解措施显著降低了 EFP 差异（78% – 95%），但对风格维度没有显著影响，这与以下假设一致：风格性的解释不平等编码在预训练分布中，仅通过部署层面的指令无法解决。本文为解释级别的公平性审计提供了一套可复现的测量框架，对 AI 监管和部署实践具有重要意义。

**索引词**——可解释人工智能，算法公平性，大型语言模型，人口统计偏差，自然语言生成。

考虑由 LLM 辅助的招聘系统评估的两名候选人。两人资格完全相同；唯一的区别是他们的名字：一个属于刻板印象中的白人男性，另一个属于黑人女性。系统拒绝了两人。对于第一名候选人：“在仔细审查后……该职位要求具备跨职能环境中的领导力经验，但这并未得到明确体现。我们建议在弥补这一差距后重新考虑。”对于第二名：“该候选人似乎不符合当前的要求。”尽管资格和决策完全相同，产生的解释却大相径庭。LLM 公平性研究几乎完全集中在*决策*差异上：受保护属性是否与不利结果相关\[17 (https://arxiv.org/html/2605.08671#bib.bib18), 9 (https://arxiv.org/html/2605.08671#bib.bib10)\]。另一部分文献考察了*解释的忠实度*（即 LLM 的辩护是否反映了实际推理过程\[22 (https://arxiv.org/html/2605.08671#bib.bib22), 6 (https://arxiv.org/html/2605.08671#bib.bib7)\]）。解释*质量、深度、语气和语言复杂性*是否在不同人口统计群体间存在系统性差异，这一交叉领域受到的系统处理有限，本文将此空白称为*解释公平性*。解释公平性有别于决策公平性。模型可以做出平衡的决策，但不平等地解释它们：向某些群体提供详尽、尊重的理由，而向其他群体提供简短、敷衍的理由。这两个维度在经验上是可分离的，每个维度都需要其自身的测量框架。这一差距具有日益增长的监管紧迫性。欧盟《人工智能法案》\[7 (https://arxiv.org/html/2605.08671#bib.bib9)\]（第 13 条）要求招聘、信贷和医疗背景下的高风险人工智能系统提供*透明的理由*，足以让人理解并挑战决策，全面执法将于 2026 年 8 月开始。如果少数群体的解释质量系统性地较低，那么通过提供*某种*解释达到的合规性与通过提供*平等*解释达到的合规性在意义上是不同的。EFT 在此执法窗口期前提供了一种实用的审计工具。

### A. 贡献

本文做出了**测量和基准测试的贡献**：它定义并操作化了一套解释级别差异维度的分类体系，引入了可复现的自动化指标，并证明了在五款 LLM 和四个受监管的决策领域中存在系统性差异。并不声称这些自动化指标能完全捕捉人类感知的解释公平性；人类验证是已确定的未来工作方向。

1.  **EFT**：解释公平性的实用操作分类体系，包含五个可测量的维度，选择这些维度是为了覆盖解释质量的不同方面，而非声称理论上的完整性。
2.  **实证研究**：涵盖 4 个受监管决策领域和 5 款 LLM 的 80 个提示模板；评估了 400 对提示在所有 8 个 EFT 指标上的表现，并发布了基准提示以供复现。
3.  **新颖指标**：HDS（对冲密度分数）和 EFP（解释忠实度代理指标），这是无需访问模型内部即可进行解释公平性审计的实用黑盒启发式方法。
4.  **方向性分析**：组级别的有符号差异揭示，不同的人口统计轴以不同的方式处于劣势，而非单一的损害模式。
5.  **缓解分析**：在差异最大的两款模型上评估了两种提示干预措施，得出了提示有效和无效的领域发现。

## II. 相关工作

### A. LLM 中的决策级别公平性与人口统计偏差

关于 LLM 是否产生在不同人口统计群体间存在差异的输出，主要是在离散决策层面进行研究。旨在探测刻板印象关联的基准数据集，包括 BBQ\[17 (https://arxiv.org/html/2605.08671#bib.bib18)\]、WinoBias\[24 (https://arxiv.org/html/2605.08671#bib.bib24)\]、HolisticBias\[20 (https://arxiv.org/html/2605.08671#bib.bib21)\]、StereoSet\[15 (https://arxiv.org/html/2605.08671#bib.bib15)\] 和 CrowS-Pairs\[16 (https://arxiv.org/html/2605.08671#bib.bib16)\]，确立了 LLM 在其输出分布中编码并复现人口统计刻板印象。这些基准与本项研究具有共同结构：对人口统计属性（姓名、描述符、代词）进行最小对比性扰动，保持所有其他内容不变。它们的区别在于结果变量。先前的基准测量模型是否选择刻板印象选项；而本文测量模型是否根据涉及人员的不同而*不同地解释*相同的决策。

通信风格的审计实验将这一线索延伸至生成式输出。Gaebler 等人\[8 (https://arxiv.org/html/2605.08671#bib.bib8)\] 使用跨种族和性别条件的姓名替换来考察 GPT-4 的评价和建议输出，发现了差异化的建议和语气。Tan 和 Lee\[21 (https://arxiv.org/html/2605.08671#bib.bib3)\] 在权力不对等的社会情境中对 LLM 基于九个人口统计轴进行条件设置，发现边缘化人设的感知响应质量较低。Amiri-Margavi 等人\[1 (https://arxiv.org/html/2605.08671#bib.bib17)\] 使用变体职业、年龄和性别的反事实提示进行职业建议任务，发现访问机会均等（无拒绝），但在情感、对冲和正式程度上存在显著差异。这些研究确立了生成式差异的存在，并为本文使用的姓名替换设计提供了直接的方法先例；本文的贡献在于特别关注四个高风险领域中作为测量输出的*决策理由*，并形式化了一套解释特定差异维度的分类体系。

Gallegos 等人\[9 (https://arxiv.org/html/2605.08671#bib.bib10)\] 和 Li 等人\[13 (https://arxiv.org/html/2605.08671#bib.bib14)\] 最近的综述编目了 LLM 公平性研究的全貌，并将解释级别的差异确定为开放性问题。

### B. LLM 生成解释的忠实度

互补的文献考察了 LLM 解释是否忠实地反映了内部推理。Turpin 等人\[22 (https://arxiv.org/html/2605.08671#bib.bib22)\] 证明，在 BBQ 任务上的思维链解释经常合理化由刻板印象驱动的答案，而不提及实际上影响决策的刻板印象特征，这一发现直接促使调查这种事后合理化是否也在人口统计群体间不均匀分布。Lanham 等人\[12 (https://arxiv.org/html/2605.08671#bib.bib13)\] 通过测试模型在回答时是否因果性地依赖于其思维链来扩展这一研究，发现忠实度因任务和模型规模而异，且在较大的模型中经常退化。Sharma 等人\[19 (https://arxiv.org/html/2605.08671#bib.bib20)\] 记录了指令微调 LLM 中的谄媚现象（即使错误也系统地同意用户表达的首选项），作为解释偏离真实推理的另一种机制。关键的是，谄媚是由提示中用户侧的首选项信号驱动的；本文使用的实验设计不包含此类信号。每个提示都陈述固定的决策结果并仅引发理由，没有任何需要顺从的用户意见表达。因此，在此观察到的解释差异不能归因于谄媚，并构成一种不同的现象：在*没有*任何用户偏好线索的情况下，解释质量受人口统计条件影响的变异。总之，这些工作确立了 LLM 解释经常不忠实；本文提出了后续问题：*不忠实性本身是否在人口统计上倾斜*。解释忠实度代理指标（EFP）明确定位为检测不对称决策关联变异的黑盒启发式方法，而非内部忠实度的直接测量。

### C. LLM 输出语言属性中的人口统计差异

几项近期研究测量了 LLM 输出在不同人口统计条件下的语言学（而非语义学）差异。Amiri-Margavi 等人\[1 (https://arxiv.org/html/2605.08671#bib.bib17)\] 观察到职业建议输出中不同人口统计群体在对冲标记、礼貌信号和负面情感框架方面存在显著差异。Tan 和 Lee\[21 (https://arxiv.org/html/2605.08671#bib.bib3)\] 发现，人设的人口统计特征影响语气和语域方面的感知响应质量。总而言之，这些研究表明，LLM *如何*写作，而不仅仅是*推荐什么*，随人口统计框架而变化。本研究为这一现象贡献了一个更丰富的测量框架：EFT 定义了五个不同的语言学维度（冗长度、情感、认识论对冲、词汇复杂度、决策关联变异），并为每个维度操作化了可复现的自动化指标，使得能够在先前工作未尝试的规模上跨模型进行系统的多领域比较。

### D. 机器学习系统中解释的公平性

一个不同的工作体系，主要在经典机器学习而非生成式模型中，研究了事后解释本身是否在不同人口统计群体间公平。Balagopalan 等人\[2 (https://arxiv.org/html/2605.08671#bib.bib1)\] 在四个高风险数据集（金融、医疗保健、入学、刑事司法）中审计基于 LIME 的代理解释，显示受保护子群体之间的解释保真度存在实质性差异。Dai 等人\[5 (https://arxiv.org/html/2605.08671#bib.bib6)\] 形式化了*通过解释质量的公平性*，定义了归因方法（如积分梯度和 SHAP）在保真度、稳定性和鲁棒性方面的基于群体的差异。Zhao 等人\[25 (https://arxiv.org/html/2605.08671#bib.bib25)\] 引入了基于特征归因的过程公平性指标，Mhasawade 等人\[14 (https://arxiv.org/html/2605.08671#bib.bib4)\] 显示，对分类器施加公平性约束会对不同子群体的解释质量产生复杂且有时不利的效果。这项工作确立了解释公平性为独立于决策公平性的维度，这一概念基础被带入生成式设置。此处的贡献是将解释公平性问题从经典 ML 中的特征归因代理扩展到*LLM 直接产生的自由文本理由*，其中解释是主要的人机交互输出，其质量具有法律后果。欧盟《人工智能法案》即将出台的有权获得解释条款\[7 (https://arxiv.org/html/2605.08671#bib.bib9), 23 (https://arxiv.org/html/2605.08671#bib.bib23)\] 使这一扩展具有时代性：如果受影响个人有权获得高风险自动化决策的解释，这些解释必须在不同人口统计群体间具有同等的信息量和可访问性。

## III. 解释公平性分类体系

LLM 不仅仅做出决策；它们证明决策的合理性。当 LLM 解释拒绝时，该理由为受影响个人、监管机构或审计人员框架并合法化了该决策。解释公平性是*多维度的*：解释可以在长度、情感框架、确定性、忠实度或语域方面不公平。这些维度在概念和经验上是独立的。此处提出的 EFT 是一个**基于可解释人工智能和算法公平性文献的实用操作框架**，而非声称理论完整性或正交性。“分类体系”一词沿袭公平性研究中操作审计分类体系的传统（参见 Balagopalan 等人\[2 (https://arxiv.org/html/2605.08671#bib.bib1)\]；Dai 等人\[5 (https://arxiv.org/html/2605.08671#bib.bib6)\]），其目标是系统、可复现地覆盖不同的可审计维度，而非形式本体论。选择这五个维度是因为每个维度（a）无需访问模型即可自动测量，（b）在先前公平性和 XAI 文献所理解的解释质量方面可解释，（c）覆盖解释可能不同的一个独特方面：表面长度、情感基调、认识论语域、决策敏感性和语言复杂性。至关重要的是，每个维度都有独立的政策相关性：解释在长度上可能足够，但在语气上敷衍了事；或者冗长但词汇上受影响个人难以理解。不声称这套维度是穷尽的；其他维度是可想象的，代表未来工作的方向。例如，*事实正确性*（解释是否准确描述决策标准）是一个重要的维度，在此排除是因为它需要本研究规模下不可用的真实标签或领域专家注释。

### A. 冗长度差异

在相同决策下，不同人口统计群体在解释长度和详尽程度上的系统性差异。通过 (i) **字数** 和 (ii) **阐述深度**（语义上不同原因的数量，通过使用 all-mpnet-base-v2\[18 (https://arxiv.org/html/2605.08671#bib.bib19)\] 嵌入解释句子并在余弦相似度 $\tau=0.75$ 时计数簇来估算）进行测量。

### B. 情感差异

不同人口统计群体间情感效价的系统性差异：

大型语言模型中的解释公平性：关于LLM在不同人口群体中如何证明决策的实证分析

相似文章

应用于大语言模型的可解释性研究：对比分析

公平输出，偏见内部：大语言模型在高风险决策中潜在偏见的因果效力与非对称性

公平模型是否进行公平推理？信用决策中程序公平的反事实解释一致性

差分隐私如何影响大语言模型中的社会偏见？一项系统性评估

基于认识论权利的LLM二阶偏见评估

提交意见反馈