通过将公平性视为对称操作来检测和缓解偏见
摘要
本文提出将公平性视为机器学习分类器中的对称操作,通过基于损失的规范化来实现在固定能力特征的同时,交换敏感属性时的不变性。该框架实现了超过90%的偏见减少,且准确率损失极小,无需因果图知识。
arXiv:2606.06514v1 公告类型:新
摘要:部署在高风险社会经济环境中的机器学习系统往往表现出偏见。我们将偏见形式化为一种对称性破坏操作:如果分类器在反事实操作下(交换敏感属性,同时保持能力特征不变)输出保持不变,则该分类器是公平的。我们实现基于损失的规范化作为对称性恢复机制,并在四个具有不同噪声、相关性和偏见水平的合成数据集上评估该框架。该框架实现了高达90%的违规减少,准确率损失约为5%。该框架不需要因果图知识,计算量轻,并且可推广到任何可定义为位翻转的敏感属性,使其适用于主流基准测试中缺乏局部歧视来源的场景。
查看缓存全文
缓存时间: 2026/06/08 09:13
# 通过将公平性视为对称操作来检测和缓解偏差
来源:https://arxiv.org/html/2606.06514
###### 摘要
在具有高风险社会经济环境中的机器学习系统经常表现出偏差。我们将偏差形式化为一种对称性破缺操作:如果一个分类器在反事实操作(即切换敏感属性,同时保持能力特征不变)下输出保持不变,则该分类器是公平的。我们实施基于损失的正则化作为对称恢复机制,并在四个具有不同噪声、相关性和偏差水平的合成数据集上评估该框架。该框架可实现高达90%以上的违规减少,准确率损失约为5%。该框架不需要因果图知识,计算量轻,并且可推广到任何可定义为比特翻转的敏感属性,使其适用于主流基准测试中缺少局部歧视来源的场景。
机器学习,ICML
## 1 引言
机器学习越来越多地被部署在涉及真实社会群体的高风险决策中。在这种情况下,所使用的模型和算法公平正义至关重要。然而,这类系统常常表现出对敏感社会群体的系统性偏见,造成了重大伤害(Hardt等人,2016;Chouldechova,2017)。先前的研究通过人口统计均等、几率均等和校准等标准提出了公平的统计定义,作为对训练模型的后续约束。Chouldechova(2017)和Kleinberg等人(2016)证明,同时满足校准和几率均等是不可能的,这为一个根本不同的方法打开了空间:与其强加事后约束,我们问一个无偏模型在结构上应满足何种不变性。
在本工作中,我们将公平视为一种对称操作,将偏差视为一种对称性破缺操作。借用群论和物理学的语言,如果系统在群作用下保持不变,则称其具有对称性。形式上,分类器$f$在变换$T$下具有不变性,当且仅当$f(x)=f(Tx)$对所有$x\in\mathcal{X}$成立。在我们的设置中,$T$是反事实算子,它翻转所有敏感属性(如种姓、性别、种族等),同时保持能力特征(如教育、经验、年龄等)不变:$T(\mathbf{x})=[\mathbf{x}_m; \mathbf{1}-\mathbf{x}_s]$,其中$\mathbf{x}_m$是能力特征,$\mathbf{x}_s$是敏感属性。这项工作紧密遵循Cohen和Welling(2016)等文献中提出的对称感知机器学习范式。这种不变性条件是一种观察性翻转,因此不需要因果图知识,使其比反事实公平性(Kusner等人,2017)更简单、更易处理,代价是无法考虑通过相关特征进行的因果中介。
## 2 问题形式化
### 2.1 设置
我们定义一个概率分类器$f:X\to[0,1]$。在该模型下,$f(x)=P(y=1|x)$,其中$y$是二元标签$y=\{0,1\}$,$x\in X$。$x$被划分为$x=[x_m; x_s]$,其中$x_m$是能力特征,$x_s$是敏感属性。我们定义变换$T:X\to X$为$T(x)=[x_m; 1-x_s]$。
### 2.2 偏差作为对称性破缺
分类器是对称的,或称$T$-不变,当且仅当对所有$x\in X$有$f(x)=f(Tx)$。类似于Dwork等人(2012),我们将逐点违规定义为$v(x)=|f(Tx)-f(x)|$,将总体违规定义为$V=E_{x\sim P_X}[|f(x)-f(T(x))|]$,其中$P(X)$是数据分布。实践中,总体违规由经验均值近似:$\hat{V}=\frac{1}{n}\sum_{i=1}^n|f(Tx_i)-f(x_i)|$。
表1:数据集分类,其中$\gamma=[\gamma_{gender},\gamma_{race}]$,$d=6$(2个敏感属性 + 4个能力特征)。
### 2.3 数据集生成
标签$y$从以下分布中抽取:
$y\mid x\sim\text{Bernoulli}\!\left(\sigma\!\left(\beta_0+\boldsymbol{\beta}^\top x_m+\boldsymbol{\gamma}^\top x_s\right)\right)$
其中$\sigma(z)=(1+e^{-z})^{-1}$是逻辑Sigmoid函数,$x_m=[\texttt{age},\ \texttt{years\_exp},\ \texttt{education},\ \texttt{skill\_score}]^\top$为能力特征,$x_s=[\texttt{gender},\ \texttt{race}]^\top$为敏感属性,$\boldsymbol{\beta}=[0.0,\ 0.04,\ 0.70,\ 0.035]^\top$为能力系数,$\beta_0=-3.0$为截距,$\boldsymbol{\gamma}$为注入的偏差向量,其值根据数据集不同而变化,如表1所述。
基准就业概率(平均能力,无偏差)约为4.7%,反映了竞争激烈的招聘。教育对能力的影响最大,其次是经验和技能。对称性破缺项是偏差注入,低偏差数据集为$[0.5, 0.375]$,高偏差数据集为$[1.8, 1.35]$。如果$\boldsymbol{\gamma}=0$,则按构造$V=0$。
为了给模型增加压力,我们还通过将能力特征生成为敏感特征的函数来产生它们之间的相关性(通过相关性注入:$\text{edu}_i\leftarrow\text{clip(edu}_i+0.6\cdot\text{gender}_i+\epsilon_i,0,3)$,$\epsilon_i\sim N(0,0.09)$且$\text{skill}_i\leftarrow\text{clip(skill}_i+8\cdot\text{gender}_i+\delta_i,0,100)$,$\delta_i\sim N(0,9)$)。我们还在高偏差数据集中引入噪声(噪声由$n_k^{(i)}=\epsilon_k^{(i)}+\delta_k\cdot s^{(i)}$生成,其中$n_k^{(i)}$是样本$i$的第$k$个噪声特征,$\epsilon_k^{(i)}\sim\mathcal{N}(0,1)$,$s_i\in\{0,1\}$是敏感属性,$\delta_k$是伪相关系数),这些噪声是额外的6个特征,不携带关于$y$的有意义信号,并且与敏感属性有微小的伪相关。
### 2.4 基于损失的正则化
完整目标函数为:
$\mathcal{L}(\mathbf{w},b)=\mathcal{L}_{task}(\mathbf{w},b)+\lambda\mathcal{L}_{sym}(\mathbf{w},b)$
其中$\mathcal{L}_{task}$是标准任务损失,采用二元交叉熵:
$\mathcal{L}_{task}=-\frac{1}{n}\sum_{i=1}^n[y_i\log f(x_i)+(1-y_i)\log(1-f(x_i))]$
且$f(x)=\sigma(\mathbf{w}^\top\tilde{x}+b)$;$\sigma(z)=1/(1+e^{-z})$。我们将对称损失$\mathcal{L}_{sym}$定义为:
$\mathcal{L}_{sym}=\frac{1}{n}\sum_{i=1}^n[f(x_i)-f(Tx_i)]^2$
现在,我们通过定义样本$i$的预测差距为$\Delta_i=f(\mathbf{x}_i)-f(T(\mathbf{x}_i))$来定义新损失函数$\mathcal{L}$的梯度。对$\mathcal{L}_{\text{sym}}=\frac{1}{n}\sum_{i=1}^n\Delta_i^2$应用链式法则:
$\frac{\partial\mathcal{L}_{\text{sym}}}{\partial\mathbf{w}}=\frac{2}{n}\sum_{i=1}^n\Delta_i\cdot\frac{\partial\Delta_i}{\partial\mathbf{w}}$
由于$f(\mathbf{x})=\sigma(\mathbf{w}^\top\tilde{\mathbf{x}}+b)$且$\sigma^\prime(z)=\sigma(z)(1-\sigma(z))$:
$\frac{\partial\Delta_i}{\partial\mathbf{w}}=\begin{split}{}&f(\mathbf{x}_i)\bigl(1-f(\mathbf{x}_i)\bigr)\tilde{\mathbf{x}}_i\\ &-f(T(\mathbf{x}_i))\bigl(1-f(T(\mathbf{x}_i))\bigr)\widetilde{T(\mathbf{x}_i)}\end{split}$
代入得:
$\frac{\partial\mathcal{L}_{\text{sym}}}{\partial\mathbf{w}}=\frac{2}{n}\sum_{i=1}^n\Delta_i\Bigl[&f(\mathbf{x}_i)\bigl(1-f(\mathbf{x}_i)\bigr)\tilde{\mathbf{x}}_i\\ &-f(T(\mathbf{x}_i))\bigl(1-f(T(\mathbf{x}_i))\bigr)\widetilde{T(\mathbf{x}_i)}\Bigr]$
学习率$\eta$下使用新的完整目标梯度的更新规则为:
$\mathbf{w}\leftarrow\mathbf{w}-\eta\left(\frac{\partial\mathcal{L}_{\text{task}}}{\partial\mathbf{w}}+\lambda\frac{\partial\mathcal{L}_{\text{sym}}}{\partial\mathbf{w}}\right)$
## 3 实验
我们在四个结构复杂性递增的合成数据集上评估损失正则化方法。所有实验使用n=2000个样本,按75/25划分为训练/测试集,并按标签分层(正例率超过5%)。违规度量$V$在训练集和测试集上使用软预测概率计算。对于损失正则化方法,我们遍历$\lambda\in\{0.0,0.5,1.0,2.0,5.0,10.0\}$,其中$\lambda=0$恢复未正则化的基线。对于数据集$D_2$(低偏差且相关),我们发现预测准确率相当,如图1所示。比较违规度量,我们观察到$D_2$测试集上的违规显著下降了93.2%,如图2和图3所示。所有数据集的准确率和违规随$\lambda$扫描的变化情况如图4所示。所有数据集基线与正则化模型的违规比较见附录。
参见图注:图1:数据集$D_2$的基线模型与正则化模型准确率比较。
参见图注:图2:基线模型与正则化模型的违规比较。
参见图注:图3:基线模型与正则化模型输出的散点图。
参见图注:图4:所有数据集$D_1$、$D_2$、$D_3$和$D_4$的$\lambda$与违规和$\lambda$与准确率关系图。
## 相关工作
算法偏差已通过统计标准作为事后约束的角度得到广泛研究。Hardt等人(2016)引入了几率均等,要求在不同人口群体中具有相同的真阳性率和假阳性率。Chouldechova(2017)和Kleinberg等人(2016)独立证明,当不同群体的基础比率不同时,校准和几率均等不能同时成立,这促使我们研究无偏模型的结构不变性。
处理中的方法,如Kamishima等人(2012)提出的模型,在训练期间将偏见正则化项(预测与敏感属性之间的互信息)添加到逻辑回归中。Zhang等人(2018)采用对抗方法,训练一个对手从模型预测中恢复敏感属性。
我们的工作与反事实公平性(Kusner等人,2017)最为相关,后者将预测器定义为无偏的,如果其输出对结构因果模型中敏感属性的干预保持不变。Kilbertus等人(2017)通过阻断因果路径分析确定的歧视性路径扩展了这一工作线。我们的工作是一种刻意的简化,以便在没有因果图的场景中发挥作用,代价是无法考虑通过相关特征的因果中介,这在数据集$D_2$中进行了压力测试。
## 讨论
自动化决策系统正迅速部署在世界各地,以协助招聘、福利分配和财务分析等关键流程(Okolo,2020)。这些部署通常对开发数据集中的代表性不足人群缺乏监管监督(Joseph,2025),这推动了公平性和偏差缓解方法的研究。
在本工作中,我们利用具有内在结构性偏差的合成数据作为低资源工具。流行的公平性基准(COMPAS、Adult Income等)主要源自西方,并不能有效编码来自全球南方国家的许多偏见和歧视(Sambasivan等人,2021)。对称性违规和正则化器是在已知数据生成过程的数据集上开发、验证和研究的,为数据稀缺环境下的公平性研究提供了一个框架。
数据生成过程在设计上也是通用的。该框架不需要重新设计即可包含不同的受保护群体,因为$x_s$中编码的偏差可以重新定义,系数也可以调整以反映不同地区多样的社会经济状况,在模拟具有不同敏感属性的不同行业(如医疗、招聘和贷款)方面证明是有效的。
这种偏差缓解范式在计算上也很轻量。由于这种设计不需要因果图知识或训练对手来识别和缓解偏差,该模型以因果忽略为代价提供了显著的计算折扣。
## 参考文献
- A. Chouldechova (2017) Fair Prediction with Disparate Impact: A Study of Bias in Recidivism Prediction Instruments. *Big Data* 5(2), pp. 153–163. External Links: Document Cited by: §1, Related Work.
- T. S. Cohen and M. Welling (2016) Group equivariant convolutional networks. In *Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48*, ICML’16, pp. 2990–2999. Cited by: §1.
- C. Dwork, M. Hardt, T. Pitassi, O. Reingold, and R. Zemel (2012) Fairness through awareness. In *Proceedings of the 3rd Innovations in Theoretical Computer Science Conference*, ITCS ’12, New York, NY, USA, pp. 214–226. External Links: ISBN 9781450311151, Link, Document Cited by: §2.2.
- M. Hardt, E. Price, and N. Srebro (2016) Equality of opportunity in supervised learning. In *Advances in Neural Information Processing Systems 29*, pp. 3315–3323. Cited by: §1, Related Work.
- T. Kamishima, S. Akaho, H. Asoh, and J. Sakuma (2012) Fairness-aware classifier with prejudice remover regularizer. In *Machine Learning and Knowledge Discovery in Databases*, pp. 35–50. Cited by: Related Work.
- N. Kilbertus, M. R. Caron, M. J. Kusner, M. W. Mathias, and R. S. Zemel (2017) Avoiding discrimination through causal reasoning. In *Advances in Neural Information Processing Systems 30*, pp. 656–666. Cited by: Related Work.
- J. Kleinberg, S. Mullainathan, and M. Raghavan (2016) Inherent trade-offs in the fair determination of risk scores. In *Proceedings of the 8th Innovations in Theoretical Computer Science Conference*, ITCS ’17, pp. 43:1–43:23. Cited by: §1, Related Work.
- M. J. Kusner, J. Loftus, C. Russell, and R. Silva (2017) Counterfactual fairness. In *Advances in Neural Information Processing Systems 30*, pp. 4066–4076. Cited by: §1, Related Work.
- C. T. Okolo (2020) The deploy AI: Global perspectives on fairness and bias in machine learning. In *Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency*, pp. 1–2. Cited by: Discussion.
- N. Sambasivan, E. Aral, C. F. Chen, and R. S. Zemel (2021) “Everyone wants to do the model work, not the data work”: Data cascades in high-stakes AI. In *Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems*, pp. 1–15. Cited by: Discussion.
- B. H. Zhang, B. L. Lemoine, and M. Mitchell (2018) Mitigating unwanted biases with adversarial learning. In *Proceedings of the 2018 AAAI/ACM Conference on AI, Ethics, and Society*, pp. 335–340. Cited by: Related Work.相似文章
公平输出,偏见内部:大语言模型在高风险决策中潜在偏见的因果效力与非对称性
本文研究了指令微调的大语言模型如何在高风险决策(如抵押贷款承销)中表现出公平输出,同时保留有偏见的内部表征,表明这些隐藏偏见具有因果效力、非对称性,且可通过激活引导加以利用。
朝向校准、公平且准确的深度伪造检测
介绍Face-Fairness (FF),一种用于深度伪造检测中偏见缓解的即插即用框架,其中Face-Feature Tuning (FFT)作为首个无需人口统计标签的公平性方法,能够提升群体准确率并缩小不同人口统计群体间的性能差距。
基于稳健训练和弃权的公平且校准的毒性检测
本文研究了毒性分类中的公平性问题,涵盖三个维度:排序、校准和弃权。比较了经验风险最小化(ERM)、加权ERM和群体分布鲁棒优化(Group DRO)方法,并结合后处理干预措施,发现校准差异是一种隐蔽的公平性违反,且弃权本身也可能不公平。
利用记忆引导的数据集去偏方法缓解虚假相关性
本文提出一种通过两阶段样本评分函数分离核心特征与虚假特征学习动态的方法,仅需10%的训练数据即可实现最先进的去偏性能。
PAFO:面向个性化奖励建模的帕累托公平优化
本文提出PAFO,一种帕累托公平优化框架,用于缓解大语言模型奖励模型中的个性化奖励偏差,在不损害多数用户组的情况下提高少数用户组的准确性。