公平模型是否进行公平推理?信用决策中程序公平的反事实解释一致性
摘要
本文引入了反事实解释一致性(CEC)框架,通过对齐个体与其反事实对应物之间的特征归因,检测并缓解结果公平模型中的隐藏程序偏差,并在信用和收入数据集上进行了实验。
arXiv:2605.12701v1 公告类型:新
摘要:在社交敏感领域(如信用决策)中的机器学习算法通常侧重于均衡预测结果。然而,满足这些指标并不能保证模型对不同群体使用相同的推理方式。我们表明,现有的结果公平模型仍然可能对个体应用根本不同的推理,这是一种标准公平性指标和算法未发现的“隐藏程序偏差”。我们提出了反事实解释一致性(CEC)框架,通过对齐个体与其反事实对应物之间的特征归因来检测并缓解这种偏差。主要贡献包括一种最近邻反事实生成方法、用于集成梯度比较的修改基线、个体级程序公平性度量以及相应的训练损失。我们引入了一个分类法,将“制度B”(相同结果,不同推理)识别为关键盲点。在合成数据、German Credit、Adult Income和HMDA抵押贷款数据上的实验表明,结果公平基线表现出显著的隐藏偏差,而CEC以适度的效用成本大幅减少了这种偏差。
查看缓存全文
缓存时间: 2026/05/14 06:17
# 公平模型是否进行公平推理?信用决策中程序公平的反事实解释一致性
来源:https://arxiv.org/html/2605.12701
###### 摘要
在社会敏感领域(例如信用决策)中,机器学习算法通常关注于均衡预测结果。然而,满足这些指标并不能保证模型对不同群体使用相同的推理方式。我们证明,现有的结果公平模型仍可能对个体应用根本不同的推理,这是一种标准公平性指标和算法未能发现的“隐藏的程序偏见”。我们提出反事实解释一致性(CEC)框架,通过对齐个体与其反事实对应体之间的特征重要性分配来检测和缓解这种偏见。主要贡献包括:一种最近邻反事实生成方法、一种用于集成梯度比较的修改基线、一个个体层面的程序公平性指标,以及相应的训练损失。我们引入了一个分类体系,将“状态B”(相同结果,不同推理)识别为关键盲点。在合成数据、德国信用数据、成人收入数据和HMDA抵押贷款数据上的实验表明,结果公平的基线模型表现出显著的隐藏偏见,而CEC以适度的效用成本大幅减少了这种偏见。
## 引言
机器学习模型现已广泛应用于社会敏感领域,例如金融服务中的信用评分、贷款承销和风险评估(Bello2023 (https://arxiv.org/html/2605.12701#bib.bib4);Dastile等人2020 (https://arxiv.org/html/2605.12701#bib.bib5))。监管框架如《平等信贷机会法》(ECOA)和《公平住房法》禁止放贷人基于受保护属性(包括种族、性别和民族)使个体处于不利地位(Act2018 (https://arxiv.org/html/2605.12701#bib.bib1),1968 (https://arxiv.org/html/2605.12701#bib.bib2))。确保机器学习模型符合这些要求已成为从业者和监管者共同面临的核心挑战。
大多数算法公平性研究通过*结果公平*来应对这一挑战,其结果公平关注跨群体比较预测结果,使用诸如人口统计平价或均衡几率等标准(Hardt等人2016 (https://arxiv.org/html/2605.12701#bib.bib28);Feldman等人2015 (https://arxiv.org/html/2605.12701#bib.bib116))。虽然这些指标在减少结果差异方面有效,但它们留下了一个未回答的关键问题:模型在评估不同群体的个体时,是否依赖相同的推理?
这个问题在程序正义理论中有着深厚根基。在哲学和法律传统中,公平不仅要求结果公平,还要求决策标准的一致应用(Rawls1971 (https://arxiv.org/html/2605.12701#bib.bib175);Leventhal1980 (https://arxiv.org/html/2605.12701#bib.bib316);Thibaut等人1973 (https://arxiv.org/html/2605.12701#bib.bib271))。“类似案件应同等对待”的原则要求具有相当资质的个体应使用相同标准进行评估,不论其人口背景。在贷款监管中,ECOA明确禁止*差别待遇*,即使结果看似平等(Act2018 (https://arxiv.org/html/2605.12701#bib.bib1))。如果放贷人主要根据信用评分评估男性的申请,但主要根据工作经历评估女性的申请,则无论批准率是否均衡,都构成被禁止的行为。这一法律和伦理动机促使我们关注自动化决策系统中的程序公平。
图1 (https://arxiv.org/html/2605.12701#Sx1.F1) 说明了核心问题。两名财务状况几乎相同但受保护群体不同的贷款申请人都获得了批准,满足了结果公平。然而,考察模型的程序却揭示了不同的推理。申请人A的决策由信用评分和收入驱动,而申请人B的决策主要取决于工作经历和抵押品。这种*隐藏的程序偏见*(不同推理路径产生相同结果)对于传统公平性指标来说不可见,却构成了ECOA下的差别待遇。
申请人A(组0)
收入=$60K,评分=720,已批准
信用评分0.55
收入0.28
工作经历0.10
抵押品0.05
其他0.02
申请人B(组1)
收入=$62K,评分=725,已批准
信用评分0.08
收入0.02
工作经历0.48
抵押品0.38
其他0.04
结果公平 ✓ 相同决策
程序不公平 × 不同推理
图1:来自不同人口群体的两位财务状况相似的申请人获得相同的贷款批准(结果公平),但模型的程序揭示了完全不同的推理(程序不公平)。这种*状态B*偏见对标准公平性指标不可见。
我们通过一个基于模型在受保护属性反事实变化下预测和解释是否一致的四种公平性状态分类体系(表1 (https://arxiv.org/html/2605.12701#Sx1.T1))来正式定义这一现象。对于一个个体 \((x, y, a)\) 及其来自另一群体的反事实 \(\tilde{x}\),我们评估两个性质:*预测一致性*(分类结果是否保持不变?)和*解释一致性*(模型的推理是否保持不变?)。两者的交叉乘积产生四种状态。现有公平性指标针对状态C和D,在这些状态下结果差异是可观察的。然而,状态B(预测一致但推理不同)在法律和伦理上同样成问题,但对所有标准指标都不可见。
表1:公平性状态分类体系。CEC针对状态B,该状态对基于结果的方法不可见。
为填补这一空白,我们提出*反事实解释一致性(CEC)*,这是一个检测和缓解隐藏程序偏见的框架。核心思想是比较一个事实个体与其反事实对应体之间的集成梯度归因向量。如果模型是程序公平的,这些归因向量应该相似。模型应以相同比例权衡信用评分、收入和其他财务特征,无论申请人属于哪个群体。当它们出现差异时,CEC量化了隐藏偏见的程度,并提供一个可微分的训练信号以缓解它。在本文中,我们做出以下贡献:
- • 我们形式化隐藏的程序偏见,并引入一个2×2分类体系,区分结果公平与程序公平的违反。
- • 我们提出一种最近邻反事实生成方法,通过控制财务能力和信用结果来生成现实匹配,无需因果图或结构方程。
- • 我们提出*反事实解释一致性(CEC)*,一个衡量在人口反事实下解释稳定性的指标,以及一个可微分的训练损失,联合优化准确性、结果公平和解释一致性。
- • 我们跨合成数据集、基准数据集和真实世界借贷数据集进行综合评估,证明结果公平的基线模型包含显著的隐藏偏见,而CEC以极小的效用成本大幅减少了这种偏见。
## 相关工作
### 机器学习中的结果公平
算法公平性文献已发展出多种统计标准来评估预测公平性。*人口统计平价*要求跨群体具有相同的正向预测率(Feldman等人2015 (https://arxiv.org/html/2605.12701#bib.bib116));*均衡几率*要求相同的真阳性率和假阳性率(Hardt等人2016 (https://arxiv.org/html/2605.12701#bib.bib28));*校准*要求预测概率在每个群体内反映真实结果(Chouldechova2017 (https://arxiv.org/html/2605.12701#bib.bib27))。这些标准通常已知彼此不相容(Kleinberg等人2017 (https://arxiv.org/html/2605.12701#bib.bib149)),导致关于权衡的丰富文献。
偏见的缓解贯穿机器学习流程。预处理方法转换训练数据以消除与受保护属性的相关性(Feldman等人2015 (https://arxiv.org/html/2605.12701#bib.bib116);Kamiran and Calders2012 (https://arxiv.org/html/2605.12701#bib.bib62);Popoola and Sheppard2024 (https://arxiv.org/html/2605.12701#bib.bib281))。处理中方法通过降维(Agarwal等人2018 (https://arxiv.org/html/2605.12701#bib.bib89))、对抗目标(Zhang等人2018 (https://arxiv.org/html/2605.12701#bib.bib61))或约束优化(Cotter等人2019 (https://arxiv.org/html/2605.12701#bib.bib317))在训练过程中纳入公平性约束。后处理方法在训练后调整决策阈值(Hardt等人2016 (https://arxiv.org/html/2605.12701#bib.bib28))。虽然这些方法有效减少了结果差异,但它们只评估模型*预测什么*,而不评估*如何*得出该预测。我们的工作表明,这一差距使得模型即使在满足所有结果约束的情况下也可能隐藏程序偏见。
### 可解释性与公平性
事后解释方法如局部可解释模型无关解释(LIME)(Ribeiro等人2016 (https://arxiv.org/html/2605.12701#bib.bib35))、沙普利加性解释(SHAP)(Lundberg and Lee2017 (https://arxiv.org/html/2605.12701#bib.bib157))和集成梯度(IG)(Sundararajan等人2017 (https://arxiv.org/html/2605.12701#bib.bib189))已成为高风险领域理解模型行为的重要工具。越来越多的研究将可解释性与公平性联系起来。Dai等人 (https://arxiv.org/html/2605.12701#bib.bib19)(2022 (https://arxiv.org/html/2605.12701#bib.bib19))考察了解释质量是否因人口群体而异,发现模型可能为少数群体提供信息较少的解释。Begley等人 (https://arxiv.org/html/2605.12701#bib.bib37)(2020 (https://arxiv.org/html/2605.12701#bib.bib37))提出使用特征重要性来审计模型的歧视性模式。Agarwal等人 (https://arxiv.org/html/2605.12701#bib.bib56)(2022 (https://arxiv.org/html/2605.12701#bib.bib56))提供了评估解释方法的基准,Slack等人 (https://arxiv.org/html/2605.12701#bib.bib82)(2020 (https://arxiv.org/html/2605.12701#bib.bib82))表明解释可以被操纵以隐藏偏见。
### 程序公平
程序公平的概念源于社会心理学和法律理论。Leventhal (https://arxiv.org/html/2605.12701#bib.bib316)(1980 (https://arxiv.org/html/2605.12701#bib.bib316))将*一致性*确定为程序正义的核心组成部分,即相同的决策规则应适用于所有人和所有时间。Grgić-Hlača等人 (https://arxiv.org/html/2605.12701#bib.bib128)(2018 (https://arxiv.org/html/2605.12701#bib.bib128))研究了人类认为在算法决策中使用哪些特征是公平的,发现人们强烈偏好基于过程的标准。在机器学习背景下,程序公平受到的关注少于结果公平,尽管近期研究开始形式化基于过程的概念(Zhao等人2023 (https://arxiv.org/html/2605.12701#bib.bib207);Germino等人2025 (https://arxiv.org/html/2605.12701#bib.bib86))。Dwork等人 (https://arxiv.org/html/2605.12701#bib.bib25)(2012 (https://arxiv.org/html/2605.12701#bib.bib25))提出了*个体公平性*(相似个体应得到相似结果),这捕捉了相关但不同的直觉。我们的方法扩展了这一概念,要求不仅结果相似,而且*推理过程*也相似。
### 反事实公平与推理
反事实推理为个体层面的公平性分析提供了一个自然框架。Kusner等人 (https://arxiv.org/html/2605.12701#bib.bib26)(2017 (https://arxiv.org/html/2605.12701#bib.bib26))使用结构因果模型(SCM)形式化了反事实公平性,要求在受保护属性干预下预测保持不变。扩展研究涉及因果路径约束(Wu等人2019 (https://arxiv.org/html/2605.12701#bib.bib233);Chiappa2019 (https://arxiv.org/html/2605.12701#bib.bib106))以及近似公平性的松弛。然而,在实践中准确构建这些图很困难。
反事实*解释*方法如DiCE(Mothilal等人2020 (https://arxiv.org/html/2605.12701#bib.bib167))、FACE(Poyiadzi等人2020 (https://arxiv.org/html/2605.12701#bib.bib174))和CARLA(Pawelczyk等人2021 (https://arxiv.org/html/2605.12701#bib.bib58))生成会改变预测的替代输入,侧重于*补救措施*(个体如何获得不同结果?)而非公平性审计。我们使用反事实推理来评估*解释*是否跨人口群体保持一致,并且通过基于能力的最近邻匹配来实现,无需因果图。
### 多目标公平学习
公平分类可视为多目标优化,涉及准确性与一个或多个公平性约束之间的潜在权衡(Wang等人2024 (https://arxiv.org/html/2605.12701#bib.bib49);Cotter等人2019 (https://arxiv.org/html/2605.12701#bib.bib317))。现有方法通常平衡两个目标:预测性能和结果公平(Wei and Niethammer2022 (https://arxiv.org/html/2605.12701#bib.bib204);Nagpal等人2025 (https://arxiv.org/html/2605.12701#bib.bib306))。我们的训练目标将其扩展到三维权衡,通过引入解释一致性作为额外目标,证明程序公平可以以适度的成本与结果公平和准确性联合实现。
## 方法论
### 符号与问题设定
我们考虑一个高风险、基于金融的决策领域(如信贷)中的二分类问题。令 \(X \subseteq \mathbb{R}^d\) 表示特征空间,\(Y = \{0,1\}\) 表示标签空间(例如,\(y=1\) 表示贷款批准),\(a \in A = \{0,1\}\) 表示二值受保护属性(例如种族或性别)。给定训练数据 \(D = \{(x_i, y_i, a_i)\}_{i=1}^n\),我们学习一个由 \(\theta\) 参数化的评分函数 \(f_\theta: X \to \mathbb{R}\),预测标签 \(\hat{y} = \mathbb{I}[f_\theta(x) \geq \tau]\),其中 \(\tau\) 为某个阈值。
我们框架的一个关键部分是财务特征与非财务特征的区分。
###### 定义1(财务特征集)。
令 \(F \subseteq \{1, \ldots, d\}\) 表示*财务特征*的索引。一个特征被认为是财务特征当且仅当它满足三个标准:
1. 基于能力:反映信用资质或还款能力(例如收入、信用评分、债务收入比),
2. 法律允许:不被公平借贷法规禁止,以及
3. 非人口代理变量:不是受保护属性的强代理变量(例如,由于历史红线政策与种族的关联,居住地邮政编码被排除)。
在实践中,\(F\) 通过领域专业知识和监管指导确定。对于信贷,典型成员包括收入、信用评分、信用历史长度、债务收入比、工作年限和流动资产。通常排除的特征包括居住地址、教育等。相似文章
大型语言模型中的解释公平性:关于LLM在不同人口群体中如何证明决策的实证分析
本文提出了“解释公平性分类法”(Explanation Fairness Taxonomy, EFT),以分析大型语言模型(LLM)在不同人口群体中证明决策时的差异,研究发现尽管决策本身保持平衡,但在解释的质量和语调上仍存在显著偏差。
通过反事实推理路径减少信用分配方差
提出隐式行为策略优化(IBPO),一种基于反事实比较的信用分配框架,通过将稀疏的终端奖励转化为对步骤敏感的学习信号,提升了大型语言模型在多步推理任务中的训练稳定性和性能。
GESD:超越结果导向的公平性
本文提出了GESD,一种面向过程的公平性度量,用于衡量不同子组之间解释稳定性的差异,并将其集成到一个多目标优化框架中,以联合优化效用、结果公平性和解释公平性。
公平输出,偏见内部:大语言模型在高风险决策中潜在偏见的因果效力与非对称性
本文研究了指令微调的大语言模型如何在高风险决策(如抵押贷款承销)中表现出公平输出,同时保留有偏见的内部表征,表明这些隐藏偏见具有因果效力、非对称性,且可通过激活引导加以利用。
忠实还是虚构?LLM评审中合理化偏见的因果框架
本文提出了一个因果框架,用于量化LLM评审中的合理化偏见,即判决和解释受非证据性线索而非底层文本的影响。该框架提出了线索干预、锚定度量以及Proof-Before-Preference缓解协议,展示了改进的线索不变性。