GESD:超越结果导向的公平性

arXiv cs.LG 论文

摘要

本文提出了GESD,一种面向过程的公平性度量,用于衡量不同子组之间解释稳定性的差异,并将其集成到一个多目标优化框架中,以联合优化效用、结果公平性和解释公平性。

arXiv:2605.15295v1 公告类型:新 摘要:机器学习(ML)算法越来越多地部署在高风险决策领域,如贷款审批、招聘和再犯预测。虽然现有的公平性度量(如统计均等、机会均等)有效地量化了结果导向的差异,但它们对偏见决策的过程或解释提供的洞察有限。为了解决这一差距,我们提出了组级解释稳定性差异(GESD),这是一种*面向过程*的公平性度量,用于衡量保护类别中不同子组之间模型解释的稳定性、鲁棒性和敏感性的差异。GESD是解释器无关、模型无关的,并将公平性分析的范围扩展到可解释性层面。我们进一步将GESD集成到一个多目标优化框架中,该框架联合优化效用、基于结果的公平性和基于解释的公平性,称为FEU(公平性—可解释性—效用)。在多个基准数据集上的实验结果表明,GESD有效捕捉了组间解释质量的差异,并且FEU在效用和公平性上均优于现有方法。通过桥接基于结果和基于解释的公平性,GESD为诊断和缓解预测建模中的偏见提供了全面工具。我们的代码和数据集可在GitHub上获取:[https://github.com/horlahsunbo/GESD](https://github.com/horlahsunbo/GESD)
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:39

# GESD:超越面向结果的公平性
来源:https://arxiv.org/html/2605.15295
††感谢:¹ Gideon Popoola 是蒙大拿州立大学 Gianforte 计算学院的博士生,地址:美国蒙大拿州博兹曼 59717,邮箱:gideon\.popoola@student\.montana\.edu
††感谢:² John Sheppard 是蒙大拿州立大学 Gianforte 计算学院的教授,地址:美国蒙大拿州博兹曼 59717,邮箱:john\.sheppard@montana\.edu
Gideon Popoola 和 John Sheppard
蒙大拿州立大学,博兹曼,蒙大拿州,美国
邮箱:gideon\.popoola@student\.montana\.edu,john\.sheppard@montana\.edu

###### 摘要

机器学习算法越来越多地部署在高风险决策领域,如贷款审批、招聘和再犯预测。现有的公平性指标(例如,统计均等、均等机会)能够有效量化面向结果的差异,但对偏见决策背后的过程或解释所提供的洞察有限。为弥补这一不足,我们提出了**组级解释稳定性差异**(GESD),这是一种面向过程的公平性指标,用于衡量模型解释在受保护类别中不同子组之间的稳定性、鲁棒性和敏感性差异。我们进一步将 GESD 集成到一个多目标优化框架中,该框架联合优化效用、基于结果的公平性和基于解释的公平性,称为 FEU(公平性–可解释性–效用)。在多个基准数据集上的实验结果表明,GESD 能够有效捕获解释质量上的组间差异,并且 FEU 在效用和公平性方面均优于现有最佳方法。通过桥接基于结果和基于解释的公平性,GESD 为诊断和缓解预测建模中的偏见提供了一个全面的工具。我们的代码和数据集可在 GitHub 上获取:https://github\.com/horlahsunbo/GESD

## I 引言

机器学习算法越来越多地部署在高影响力领域,如招聘、大学录取、贷款审批和刑事司法 \[5 (https://arxiv.org/html/2605.15295#bib.bib1)\]。尽管具有效率和可扩展性的潜力,但先前的工作已经对算法偏见提出了严重关切,即模型在受保护类别(如年龄、种族和性别)的某些成员上系统性地不公平 \[22 (https://arxiv.org/html/2605.15295#bib.bib39)\]。早期研究确定,机器学习系统可能从其训练所用的数据集中继承社会偏见,无意中放大历史偏见 \[7 (https://arxiv.org/html/2605.15295#bib.bib2)\]。这些发现促使了一系列面向结果的公平性指标的发展,这些指标侧重于衡量和缓解模型预测或结果中的差异,例如统计均等 \[9 (https://arxiv.org/html/2605.15295#bib.bib5)\]、均等化优势 \[16 (https://arxiv.org/html/2605.15295#bib.bib6)\] 和预测均等 \[10 (https://arxiv.org/html/2605.15295#bib.bib7)\]。

尽管这些面向结果的指标能够量化偏见并优化模型的公平性,但大多数方法仍然依赖于模型预测。这种对模型预测的依赖意味着这些指标忽略了决策过程中(即过程或解释)可能存在的偏见。这种忽视意味着该指标无法进一步缓解面向过程的偏见,而这对于开发公平且可解释的机器学习模型至关重要 \[3 (https://arxiv.org/html/2605.15295#bib.bib8)\]。

鉴于上述情况,越来越多的研究社区对弥合可解释性(表示人类理解或信任模型推理的程度)与公平性(表示模型不会不公平地对待受保护类别的程度)之间的差距感兴趣。Lipton(\[20 (https://arxiv.org/html/2605.15295#bib.bib15)\])强调,仅仅观察到公平的输出可能是不够的,这意味着算法可能产生看似公平的结果,但仍然依赖于可疑或歧视性的内部程序。最近的研究指出了检查模型程序的必要性,而不是仅仅依赖结果统计 \[15 (https://arxiv.org/html/2605.15295#bib.bib16)\]。一些工作提出了检验模型的推理在掩盖最重要特征时的敏感性(称为解释保真度)\[2 (https://arxiv.org/html/2605.15295#bib.bib19)\]。然而,这些方法在范围上仍然有限,因为它们仍然在一定程度上依赖于模型预测。一个更全面的面向过程的公平性指标将明确评估不同受保护属性的成员是否获得了具有相似稳定性、鲁棒性和敏感性的解释。这样的指标可以检测模型的解释模式是否在不同子组之间剧烈波动。

除了桥接公平性和可解释性,最近的研究也开始将公平性、可解释性和效用视为机器学习模型中的多目标问题。解决此问题的一种常见方法是使用复合损失函数,该函数将多个指标组合成一个带有可调权重的单一损失函数 \[29 (https://arxiv.org/html/2605.15295#bib.bib20)\]。此外,基于帕累托的策略利用诸如多目标进化算法(MOEA)之类的方法探索权衡这些目标的谱系,以生成平衡效用、可解释性和公平性的帕累托集合 \[26 (https://arxiv.org/html/2605.15295#bib.bib32)\。

本文介绍了一个面向过程的公平性框架,以平衡公平性和可解释性。具体而言,我们定义了**组级解释稳定性差异(GESD)**指标,以量化模型解释在受保护子组之间的鲁棒性、稳定性和敏感性,从而揭示面向结果的公平性指标常常忽略的过程性偏见。与先前比较组间平均特征重要性或平均解释的指标不同 \[29 (https://arxiv.org/html/2605.15295#bib.bib20)\],GESD 通过评估解释在扰动下的稳定性来评估解释本身的可靠性,确保不同组获得一致性相当的解释。该指标既与模型无关,也与解释器无关,因此兼容多种学习算法和事后可解释性方法。重要的是,GESD 补充了传统的预测级公平性指标,即使模型在结果上看似公平时,也能识别解释质量上的差异。

在我们的框架下,我们将 GESD 集成到一个称为公平性–可解释性–效用(FEU)的多目标优化过程中,该过程联合优化基于结果的公平性、基于解释的公平性和模型效用。因此,我们的方法提供了一个更全面的公平建模视角,确保最终预测和底层过程在受保护组之间都是公平的。本文的贡献总结如下:

1. 我们形式化了在解释质量上检测组级差异的问题,并提出了一种新的面向过程的指标(GESD)来量化解释鲁棒性、稳定性和敏感性上的差异。
2. 我们提出了一个受进化算法启发的多目标优化框架 FEU,该框架优化效用、公平性和可解释性指标,以生成在这些目标上平衡的模型。
3. 我们证明了 GESD 能够在多个基准数据集上有效检测隐藏的组级解释偏差。
4. 我们展示了 FEU 能够比现有公平模型实现更优的效用与公平性权衡。

## II 组级解释稳定性差异

GESD 建立在先前关于解释敏感性和鲁棒性的定义之上,以确保没有组获得显著不如另一组稳定的解释 \[21 (https://arxiv.org/html/2605.15295#bib.bib26),3 (https://arxiv.org/html/2605.15295#bib.bib8)\]。我们在算法 1 中展示了完整算法。

算法 1 组级解释差异 (GESD)
1: **输入**: 训练好的模型 \(f\),评估数据集 \(X \in \mathbb{R}^{n \times d}\),敏感属性 \(s \in \mathbb{R}^n\),训练数据 \(X_{\text{train}}\),扰动次数 \(N\),高斯尺度 \(\sigma\),掩码概率 \(p\),基线值 \(b\),样本量 \(m\)
2: **初始化** 稳定性列表 \(\mathcal{S} \leftarrow \emptyset\)
3: 从 \(X\) 中随机采样 \(X_{\text{sample}} \subset X\),大小为 \(m\)
4: **对于** 每个 \(x \in X_{\text{sample}}\) 及其敏感属性 \(s_x\) **执行**
5: 使用 \(f\) 和 \(X_{\text{train}}\) 计算 \(E_{\text{SHAP}}(x)\)
6: 使用 \(f\) 和 \(X_{\text{train}}\) 计算 \(E_{\text{LIME}}(x)\)
7: 计算聚合解释(方程 (1))
8: **初始化** 扰动稳定性列表 \(L \leftarrow \emptyset\)
9: **对于** \(i = 1\) 到 \(N\) **执行**
10: 生成噪声: \(\epsilon \sim \mathcal{N}(0, \sigma^2 I)\)
11: 计算扰动实例: \(x' \leftarrow x + \epsilon\)
12: 生成二元掩码: \(M \in \{0,1\}^d, p_j = P(M_j = 0), j = 1, \ldots, d\)
13: 应用掩码: \(\tilde{\mathbf{x}} \leftarrow M \odot (\mathbf{x} + \boldsymbol{\epsilon}) + (\mathbf{1} - M) \odot \mathbf{x}^{(0)}\)
14: 计算扰动实例的解释(方程 (1))
15: 计算距离(方程 (2))
16: 计算该扰动的稳定性得分: \(S(x) \leftarrow \frac{1}{1 + \Delta(x)}\)
17: 将 \(S_i(x)\) 追加到 \(L\)
18: **结束循环**
19: 计算 \(x\) 的平均稳定性: \(S_i(x) \leftarrow \frac{1}{N} \sum_{i=1}^N S(x)\)
20: 将配对 \((s_x, S(x))\) 记录在 \(\mathcal{S}\) 中
21: **结束循环**
22: **对于** 每个组 \(G_i\) **执行**
    \(S_i \leftarrow \frac{1}{|X_{G_i}|} \sum_{\mathbf{x} \in X_{G_i}} S_i(\mathbf{x})\)
23: **如果** 组数 \(K = 2\) **则**
    \(\text{GESD} \leftarrow |S_0 - S_1|\)
24: **否则**
    \(\bar{S} \leftarrow \frac{1}{K} \sum_{g=1}^K S_i\)
    \(\text{GESD}_{K\text{-groups}} \leftarrow \frac{1}{K} \sum_{g=1}^K (S_i - \bar{S})^2\)
25: **返回** GESD

#### II-1 解释聚合

设 \(f(\mathbf{x})\) 是模型对输入 \(\mathbf{x} \in \mathbb{R}^d\) 的预测结果。设 \(E_{\text{SHAP}}(f, \mathbf{x}) = (\phi_1, \phi_2, \dots, \phi_d)\) 表示 \(\mathbf{x}\) 的 SHAP 解释向量,设 \(E_{\text{LIME}}(f, \mathbf{x}) = (\ell_1, \ell_2, \dots, \ell_d)\) 表示 LIME 解释。我们将这两种解释聚合成一个向量,如下所示:

\[
E_{\text{agg}}(f, x) = \frac{1}{2} \big( E_{\text{SHAP}}(f, x) + E_{\text{LIME}}(f, x) \big) \tag{1}
\]

这一选择在 [6 (https://arxiv.org/html/2605.15295#bib.bib25), Prop. 2] 的结果中得到证明,该结果显示平均(中心点)能产生比任一分量更稳定的解释。

#### II-2 扰动

为了评估解释的稳定性,我们生成输入的扰动版本,并观察解释相对于 \(\mathbf{x}\) 的变化。形式上,对于给定数据点 \(\mathbf{x} \in \mathbb{R}^d\),我们定义一个随机扰动 \(\tilde{\mathbf{x}}\),其从 \(\mathbf{x}\) 邻域内的分布 \(P_{\mathbf{x}}\) 中抽取,该分布同时包含高斯噪声和特征掩码:

- **高斯噪声**: 对于每个特征,令 \(\boldsymbol{\epsilon} \sim \mathcal{N}(\mathbf{0}, \sigma^2 I)\)(一个加性 \(d\) 维高斯分布,每个特征方差为 \(\sigma^2\))。然后扰动实例为 \(\mathbf{x} + \boldsymbol{\epsilon}\)。这模拟了输入的自然波动,而这些波动不应导致解释的显著变化 [8 (https://arxiv.org/html/2605.15295#bib.bib27)]。
- **特征掩码**: 为模拟缺失或无信息特征,我们随机将某些特征替换为基线值(例如均值或零)。令 \(\mathbf{x}^{(0)}\) 为参考基线(例如数据集均值)。我们引入一个随机掩码向量 \(M \in \{0,1\}^d\),其中 \(M_j = 0\) 表示掩码特征 \(j\)。对于每个特征 \(j\),以概率 \(p_j\) 设置 \(M_j = 0\)(掩码),以概率 \(1 - p_j\) 设置 \(M_j = 1\)(保留)。则

\[
\tilde{x}_j = \begin{cases}
x_j^{(0)}, & M_j = 0 \text{ (特征 } j \text{ 被掩码)} \\
x_j + \epsilon_j, & M_j = 1 \text{ (特征 } j \text{ 被加噪声)} .
\end{cases}
\]

在向量形式中,可从扰动分布中抽取 \(\tilde{\mathbf{x}} = M \odot (\mathbf{x} + \boldsymbol{\epsilon}) + (\mathbf{1} - M) \odot \mathbf{x}^{(0)}\),其中 \(\odot\) 表示逐元素乘积。重要的是,我们将扰动限制在一个小邻域内,使得 \(f(\tilde{\mathbf{x}}) \approx f(\mathbf{x})\),即模型预测不会显著变化。

#### II-3 稳定性

利用上述扰动,我们通过衡量解释变化的程度来量化解释的稳定性。设 \(E(f, \mathbf{x}) = E_{\text{agg}}(f, \mathbf{x})\) 表示原始输入 \(\mathbf{x}\) 的聚合解释向量,\(E(f, \tilde{\mathbf{x}})\) 表示扰动输入 \(\tilde{\mathbf{x}}\) 的解释。我们衡量原始解释与扰动解释之间的距离为:

\[
d_1\big(E(f, \mathbf{x}), E(f, \tilde{\mathbf{x}})\big) = \sum_{j=1}^d \big| E_j(f, \mathbf{x}) - E_j(f, \tilde{\mathbf{x}}) \big|.
\]

小的距离意味着解释对扰动具有鲁棒性;然而,大的距离意味着特征重要性发生了实质性变化,表明不稳定性。我们将 \(\mathbf{x}\) 处的解释不稳定性定义为随机扰动下距离的期望变化:

\[
\Delta(\mathbf{x}) = \mathbb{E}_{\tilde{\mathbf{x}} \sim P_{\mathbf{x}}} \Big[ \| E(f, \mathbf{x}) - E(f, \tilde{\mathbf{x}}) \|_1 \Big], \tag{2}
\]

其中期望是对扰动分布 \(P_{\mathbf{x}}\) 进行的。在实践中,我们通过对多个采样扰动 \(\tilde{\mathbf{x}}\) 的 \(\|E(f, \mathbf{x}) - E(f, \tilde{\mathbf{x}})\|_1\) 进行平均来近似 \(\Delta(\mathbf{x})\)。较低的 \(\Delta(\mathbf{x})\) 意味着更稳定的解释,而较高的值意味着解释对小的输入变化敏感。

为方便起见,我们还定义了稳定性得分 \(S(\mathbf{x})\),使得较高的 \(S\) 表示较高的稳定性。例如,\(S(\mathbf{x}) = \exp(-\Delta(\mathbf{x}))\) 或 \(S(\mathbf{x}) = 1/(1 + \Delta(\mathbf{x}))\) 随着 \(\Delta\) 增加而单调递减。

#### II-4 组级稳定性得分聚合

接下来,我们将稳定性度量扩展到评估

相似文章

多目标优化中梯度聚合的统一框架

arXiv cs.LG

本文提出了一个多目标优化中梯度聚合的统一理论框架,建立了收敛到帕累托平稳性的速率。作者引入了一个充分对齐条件,并展示了其在现有算法和新算法(如 capped MGDA)中的应用。

基于稳健训练和弃权的公平且校准的毒性检测

arXiv cs.LG

本文研究了毒性分类中的公平性问题,涵盖三个维度:排序、校准和弃权。比较了经验风险最小化(ERM)、加权ERM和群体分布鲁棒优化(Group DRO)方法,并结合后处理干预措施,发现校准差异是一种隐蔽的公平性违反,且弃权本身也可能不公平。