避免表格数据公平半监督学习中的结构性失效模式：基于置信度门控的在线原始-对偶分配

arXiv cs.LG 2026/05/19 04:00 论文

fair-ssl tabular-data semi-supervised-learning fairness machine-learning primal-dual confidence-gating

摘要

本文识别了置信度门控下表格数据公平半监督学习中的结构性失效模式，并提出了在线原始-对偶分配（OPDA）来缓解这些问题，无需针对每个数据集进行调参。

arXiv:2605.16446v1 公告类型：新摘要：半监督学习（SSL）能够在有限标签下进行预测，但高风险的表格数据应用（医疗、信贷、再犯预测）需要统计公平性保证。我们通过一项诊断性压力测试，识别了表格数据公平半监督学习中的一个结构性矛盾：在置信度门控的伪标签策略下，矩匹配公平性正则化器可能触发两种失效模式——掩模崩溃（公平性侵蚀置信度，导致伪标签匮乏）和平凡饱和（漂移为常数预测器）。我们提出了在线原始-对偶分配（OPDA），这是一种在线控制器，它利用违规信号、风险信号和伪标签健康信号来调度公平性惩罚和基于熵的稳定性惩罚，从而避免在此诊断场景中为每个数据集选择固定的公平性权重。在评估的表格数据基准（Adult、ACSIncome、COMPAS）上，OPDA缓解了静态加权和简单单信号自适应基线方法中观察到的退化状态。在Adult和COMPAS上，它产生的非退化操作点可与经验静态-$\lambda$前沿相竞争；在ACSIncome上，它以更宽的公平-效用权衡区间保留了效用。与OPDA-lite相比，完整控制器在ACSIncome上主要将操作点转移至更高效用，而Adult则凸显了两者之间的公平-效用权衡。这些结果表明，OPDA是一种无需校准的控制器，可在表格数据公平半监督学习中实现非退化操作点，且无需针对每个数据集进行调参。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:43

# 避免表格公平半监督学习中的结构失效模式：基于置信门控的在线原始-对偶分配

来源：https://arxiv.org/html/2605.16446

11institutetext:1 吉林大学计算机科学与技术学院，中国
2 吉林大学符号计算与知识工程教育部重点实验室，中国

###### 摘要

半监督学习（SSL）能够在标签有限的情况下进行预测，但高风险表格应用（医疗、信贷、再犯罪预测）需要统计公平性保证。我们通过诊断性压力测试识别出表格公平SSL中的一个结构冲突：在基于置信门控的伪标签机制下，矩匹配公平性正则化器可能触发两种失效模式——掩码崩溃（公平压力侵蚀置信度，导致伪标签匮乏）和琐碎饱和（漂移为常数预测器）。我们提出在线原始-对偶分配（OPDA），这是一种在线控制器，它利用违规度、风险和伪标签健康信号来调度公平性和基于熵的稳定性惩罚，从而避免在该诊断机制下针对每个数据集选择固定的公平性权重。在评估的表格基准测试（Adult、ACSIncome、COMPAS）上，OPDA缓解了静态权重和简单单信号自适应基线中观察到的退化状态。在Adult和COMPAS上，它产生了与经验静态λ前沿相当的非退化工作点；在ACSIncome上，它在更宽的公平性-效用权衡范围内保持了效用。相对于OPDA-lite，完整控制器主要将ACSIncome上的工作点移向更高的效用，而Adult则突出了两种变体之间的公平性-效用权衡。这些结果使OPDA成为一种无校准控制器，可在无需针对每个数据集调整的情况下，在表格公平SSL中获得非退化工作点。

## 1 引言

考虑高风险表格应用，如医疗决策支持、信用评分和再犯罪预测，在这些应用中，由于昂贵的专家标注，标记数据稀缺，但监管合规要求在不同人口群体之间提供统计公平性保证。半监督学习（SSL）使得在有限标签下进行预测成为可能，但现代伪标签SSL依赖于*置信门控*：仅当预测超过阈值 τ [22 (https://arxiv.org/html/2605.16446#bib.bib1)] 时才保留伪标签。然而，公平性正则化器强制进行组间矩匹配，系统性地抑制置信度，从而禁用伪标签机制。

##### 范围。

本研究聚焦于*表格多输出*公平SSL，主要基于三个因素：（1）在高风险应用中普遍存在：表格数据主导了医疗决策支持、信用评分和再犯罪预测，这些领域标签稀缺和公平性约束都至关重要 [16 (https://arxiv.org/html/2605.16446#bib.bib27),9 (https://arxiv.org/html/2605.16446#bib.bib28),1 (https://arxiv.org/html/2605.16446#bib.bib38)]；（2）失效机制的隔离：多标签结构（L > 1）使我们能够隔离并验证预测的失效模式，而无需高维表示的混杂因素；（3）计算效率：表格基准测试能够进行广泛的消融和敏感性分析，这在图像数据上成本高昂。因此，我们的实证评估采用了诊断性压力测试设置来隔离和验证失效模式，但所识别的机制（掩码崩溃、琐碎饱和）是置信门控公平SSL的基础性问题，OPDA的多信号设计适用于标准的单标签设置。

我们识别出两种*结构性失效模式*。**类型 I（掩码崩溃）**：公平性压力将预测集中在决策边界附近，伪标签覆盖率 qt 崩溃，导致梯度匮乏。**类型 II（琐碎饱和）**：训练漂移为常数预测器，公平性违规接近零，但效用严重下降。两种失效都源于伪标签选择与约束评估之间的*非平稳*耦合，使得静态权重变得脆弱。图1 (https://arxiv.org/html/2605.16446#S1.F1) 展示了这些因果路径。

[图1的说明文字] 图 1：公平 SSL 中结构失效的因果机制。高公平压力分为两条路径：类型 I（掩码崩溃）侵蚀置信度并导致梯度匮乏；类型 II（琐碎饱和）使预测坍缩为常数，效用下降。

我们从三个角度形式化这些病理现象。首先，在置信门控 SSL 下，足够强的矩匹配惩罚允许出现常数解，其梯度趋于零（命题 1；附录 A）。其次，对于 SimFair [18 (https://arxiv.org/html/2605.16446#bib.bib13)]，公平性强制在 logit 空间与基于熵的置信度锐化严格符号冲突（命题 2；附录 B）。第三，我们提供了 OPDA 外环动力学的凸松弛分析，并给出次线性遗憾保证（附录 G）。

这使我们的方法区别于多目标方法（PCGrad [24 (https://arxiv.org/html/2605.16446#bib.bib22)]、MGDA [21 (https://arxiv.org/html/2605.16446#bib.bib20)]），后者假设目标是平稳的。置信门控下的公平 SSL 表现出内生非平稳性：约束函数 V_t(θ) 和 H_t(θ) 依赖于不断演化的伪标签掩码 M_t(θ)。OPDA 通过利用在线观测值逐轮调整对偶权重，追踪一个移动均衡。

我们提出**在线原始-对偶分配（OPDA）**来解决这种结构性僵局。OPDA 使用双层预算-分配参数化：λ_v^(t) = B_t π_t 和 λ_h^(t) = B_t (1 - π_t)。我们利用在线可观测值（包括公平性违规度 v_t、风险代理 r_t、伪标签健康信号 q_t, p_t, ESS_t 以及梯度对齐）更新 (B_t, π_t)。预算动态实现鲁棒的“寻找膝盖”策略；分配动态具有冲突感知和抗匮乏保证。OPDA 在所有数据集上使用相同的默认配置（补充附录 D）。

##### 贡献。

- **机制诊断**。 我们识别出置信门控表格公平 SSL 中的两种失效模式，并形式化其充分的局部机制：梯度消失邻域（命题 1；附录 A）和精确的 logit 空间符号冲突（命题 2；附录 B）。
- **伪标签健康感知控制器**。 我们提出 OPDA，这是一种轮级预算-分配控制器，利用在线可观测值调度公平性和稳定性压力，并在评估的表格设置中使用单一的默认配置。
- **表格压力测试中的实证证据**。 在 Adult、ACSIncome 和 COMPAS 上，OPDA 缓解了静态权重和简单单信号控制器下观察到的退化状态，同时在诊断性压力测试环境中产生了有竞争力的工作点。

##### 代码可用性。

## 2 相关工作

##### 半监督学习。

现代 SSL 使用一致性正则化与置信门控伪标签 [22 (https://arxiv.org/html/2605.16446#bib.bib1),26 (https://arxiv.org/html/2605.16446#bib.bib2),7 (https://arxiv.org/html/2605.16446#bib.bib3)]。当预测低于阈值 τ 时，无监督损失被掩码，引入类似开关的依赖。在多标签设置中，门控是逐元素应用的 [23 (https://arxiv.org/html/2605.16446#bib.bib4),5 (https://arxiv.org/html/2605.16446#bib.bib5)]。大多数 SSL 方法假设外部正则化器不会系统性禁用无标签目标。我们的分析表明，矩匹配压力可以抑制置信度并停用伪标签掩码。

##### 通过矩匹配实现统计公平性。

群体公平概念（DP、EOp）[25 (https://arxiv.org/html/2605.16446#bib.bib9),12 (https://arxiv.org/html/2605.16446#bib.bib8)] 控制敏感群体之间的差异。可微分的代理使用矩匹配或分布差异 [11 (https://arxiv.org/html/2605.16446#bib.bib11),15 (https://arxiv.org/html/2605.16446#bib.bib12)]。我们采用 SimFair [18 (https://arxiv.org/html/2605.16446#bib.bib13)] 作为代表性实例。关键的是，约束评估和伪标签选择共享不断演化的预测，这使得约束函数具有*内生非平稳性*。OPDA 利用在线可观测值调度对偶压力，而不是假设固定的约束景观。

##### 半监督学习中的公平性。

先前的公平 SSL 工作使用原始-对偶更新 [6 (https://arxiv.org/html/2605.16446#bib.bib15)]、群体感知重加权 [14 (https://arxiv.org/html/2605.16446#bib.bib16),20 (https://arxiv.org/html/2605.16446#bib.bib17)] 或表示级公平性 [19 (https://arxiv.org/html/2605.16446#bib.bib18),3 (https://arxiv.org/html/2605.16446#bib.bib19)]。这些方法侧重于在给定伪标签的情况下减少偏差。我们解决一个正交关切：强矩匹配压力可能使伪标签本身不稳定，导致掩码崩溃或琐碎饱和。

##### 动态加权与反馈控制。

多目标方法（GradNorm [8 (https://arxiv.org/html/2605.16446#bib.bib21)]、PCGrad [24 (https://arxiv.org/html/2605.16446#bib.bib22)]、MGDA [21 (https://arxiv.org/html/2605.16446#bib.bib20)]）基于梯度统计调整权重。然而，它们仅基于梯度操作，不监测机制健康状态。在公平 SSL 中，当公平压力抑制置信度时，伪标签可用性可能灾难性下降。OPDA 以轮次粒度运行，并显式跟踪伪标签健康信号（q_t, p_t, ESS_t），以便在梯度病理发生之前检测到 SSL 机制失效。

我们将 OPDA 框架定位为反馈控制 [27 (https://arxiv.org/html/2605.16446#bib.bib24),4 (https://arxiv.org/html/2605.16446#bib.bib25)]，追踪一个移动均衡（命题 3；补充材料附录 C）。OPDA 将对偶总预算与分配分离，并使用在线可观测值更新两者。这提供了与在线优化解释的桥梁，并带有遗憾保证（附录 G）。

## 3 OPDA 框架

为了解决矩匹配公平性与置信门控伪标签之间的结构性僵局，我们提出**在线原始-对偶分配（OPDA）**。OPDA 将每个轮次视为一个在线回合，并利用在线可观测值（v_t, r_t, q_t, p_t, ESS_t，梯度对齐）自适应地调度两个对偶权重：公平性惩罚和基于熵的稳定性惩罚。

##### 为什么是基于熵的稳定性？

FixMatch 风格的置信门控仅在预测足够自信时保留伪标签 [22 (https://arxiv.org/html/2605.16446#bib.bib1)]。为了保持伪标签的可行性，我们引入教师视角的熵最小化作为经典的 SSL 正则化器 [10 (https://arxiv.org/html/2605.16446#bib.bib36)]。OPDA 并不假设此通道总是有益的：当掩码匮乏不占主导地位时，其分配权重可以被驱动到一个较小的下限。

##### 信号。

OPDA 监测多个在线可观测值，以检测公平性违规和伪标签健康退化。在轮次 t：v_t 是训练时公平性惩罚（SimFair DP 风格矩匹配，附录 E）；r_t = 1 - MacroF1_val ∈ [0,1] 是风险代理；q_t ∈ [0,1] 是伪标签通过率；p_t ∈ [0,1] 是代理准确率；ESS_t > 0 是有效样本量。由于已知的自训练病理学 [2 (https://arxiv.org/html/2605.16446#bib.bib37)]，我们跟踪伪标签健康状态。

##### 风险代理作为外环监测器。

我们在留出验证集上定义 r_t = 1 - MacroF1_val，作为一个有界标量，在类别不平衡下跟踪效用退化。用于 r_t 的验证集 Macro-F1 在训练期间使用固定阈值 0.5 二值化；最终报告的测试集 Macro-F1 使用第 4 节中描述的每标签重缩放阈值。关键的是，r_t **不**添加到内环训练目标中，我们也**不**通过 Macro-F1 反向传播；它仅由 OPDA 的外环控制器使用，以根据过度的效用损失来限制预算增长，从而避免对验证性能的过拟合。

##### 公平性概念。

优化的约束 V_t(θ) 是 DP 风格的群体矩匹配（附录 E）[25 (https://arxiv.org/html/2605.16446#bib.bib9)]。我们使用 **DP 差距**作为主要公平性指标；EOp/EOd 仅作为评估指标 [12 (https://arxiv.org/html/2605.16446#bib.bib8)]。

### 3.1 公平 SSL 作为非平稳约束优化

设 F_t(θ) 表示轮次 t 的基础 SSL 目标：

F_t(θ) = L_sup(θ) + λ_u L_unsup(θ; M_t(θ)),   (1)

其中 M_t(θ) 是在置信阈值化下的选择掩码 [22 (https://arxiv.org/html/2605.16446#bib.bib1)]。我们考虑两个约束函数：公平性违规 V_t(θ)（SimFair DP）和弱视图上的基于熵的稳定性 H_t(θ)。关键的是，两者都通过依赖于 M_t(θ) 而具有非平稳性：

V_t(θ) = V(θ; M_t(θ)),   H_t(θ) = H(θ; M_t(θ)).   (2)

代理约束形式：

min_θ   F_t(θ)   s.t.   V_t(θ) ≤ ε_v,   H_t(θ) ≤ ε_h,   (3)

具有时变拉格朗日函数

L_t(θ, λ_v^(t), λ_h^(t)) = F_t(θ) + λ_v^(t) V_t(θ) + λ_h^(t) H_t(θ).   (4)

OPDA 避免通过验证选择静态公平权重；相反，它使用在线改进-风险信号来控制对偶变量。

### 3.2 对偶重参数化：预算与分配

OPDA 将对偶变量重参数化为**总预算** B_t 和**分配比率** π_t：

λ_v^(t) = B_t π_t,   λ_h^(t) = B_t (1 - π_t),   (5)

其中 B_t ∈ [B_min, B_max^soft], π_t ∈ [0,1]。这将强制强度 (B_t) 与冲突解决 (π_t) 分离。在发布的实现中，当 B_min = 0 时，对数域更新使用数值下限 ε_B，非绑定上限实现为 B_max^soft（表 1；第 4 节）。

OPDA 在所有数据集上使用固定的内部常数（表 1；第 4 节；补充附录 D）。图 2 (https://arxiv.org/html/2605.16446#S3.F2) 说明了信号流。

[图 2 的说明文字] 图 2：OPDA 架构。外环使用增益-成本信号更新总预算 B_t；内环分配预算

避免表格数据公平半监督学习中的结构性失效模式：基于置信度门控的在线原始-对偶分配

相似文章

未知共享库存的在线分配

超越惩罚机制：基于扩散模型的离线强化学习分布外检测与选择性正则化

基于差分隐私原始-对偶视角的可证明后门攻击鲁棒性

SG-OPD：通过符号一致性门控和分阶段教师采样的符号门控在线策略蒸馏

乐观对偶平均化统一了现代优化器

提交意见反馈