基于稳健训练和弃权的公平且校准的毒性检测

arXiv cs.LG 2026/05/15 04:00 论文

toxicity-detection fairness calibration abstention robust-training ai-safety

摘要

本文研究了毒性分类中的公平性问题，涵盖三个维度：排序、校准和弃权。比较了经验风险最小化（ERM）、加权ERM和群体分布鲁棒优化（Group DRO）方法，并结合后处理干预措施，发现校准差异是一种隐蔽的公平性违反，且弃权本身也可能不公平。

arXiv:2605.14074v1 公告类型：新摘要：毒性分类中的公平性涉及三个相互关联的维度：排序、校准和弃权。训练时的干预和后处理安全机制不能独立评估，因为前者决定了后者的有效性。我们比较了经验风险最小化（ERM）、实例级重加权和群体分布鲁棒优化（Group DRO）在这些维度上的表现，并结合温度缩放、基于置信度的弃权和每类身份阈值优化。评估使用了子组AUC、BPSN/BNSP AUC、错误差距以及每子组的期望校准误差（ECE），并通过自助法计算置信区间（n = 1000）。我们报告了四个发现。（1）校准差异是一种隐蔽的公平性违反。ERM的整体校准近乎完美（0.013），但在所有身份子组中存在显著校准偏差（+0.029 至 +0.134）。（2）训练干预重塑了而非消除了差异。加权ERM改善了排序（BPSN AUC 提升 +0.06 至 +0.12），但使校准-公平差距恶化了最多 +0.232。Group DRO消除了校准差异，但代价是全局校准偏差一致（ECE 0.118）。（3）后处理方法继承了训练失效模式。温度缩放失败，因为校准偏差是非均匀的。基于置信度的弃权在ERM下有效，但在DRO下失效，此时风险-覆盖曲线随弃权决策而上升。（4）弃权本身是不公平的。基于置信度的弃权对背景内容的帮助远大于提及身份的内容。我们认为，SRAI公平性需要一个多维度框架：仅在整体排序上不同的方法可能在实际危害的决定性失效模式上存在显著差异。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:27

# 公平且校准的毒性检测：通过鲁棒训练与弃权机制

来源：https://arxiv.org/html/2605.14074

###### 摘要

毒性分类中的公平性涉及三个整合的轴心：排序、校准和弃权。训练阶段的干预措施和事后安全机制无法独立评估，因为前者决定了后者的效能。我们比较了经验风险最小化（ERM）、实例级重加权和Group DRO在这三个轴上的表现，并结合了温度缩放、基于置信度的弃权以及每个身份组的阈值优化。评估使用了子组AUC、BPSN/BNSP AUC、误差差距以及每个子组的期望校准误差（ECE），并附有bootstrap置信区间（n=1000）。

我们报告了四个发现。(1)校准差异是一个隐藏的公平性违规。ERM在总体水平上近乎完美校准（0.013），但在每个身份子组上均显著失准（+0.029至+0.134）。(2)训练干预重塑而非消除差异。重加权ERM改善了排序（BPSN AUC提升+0.06至+0.12），但校准-公平性差距恶化了多达+0.232。Group DRO消除了校准差异，但代价是全局均匀失准（ECE 0.118）。(3)事后方法继承了训练失败模式。温度缩放失败，因为失准是非均匀的。基于置信度的弃权在ERM下有效，但在DRO下失效，风险-覆盖率曲线随着弃权率上升而上升。(4)弃权本身也是不公平的。基于置信度的弃权对背景内容的帮助远大于对提及身份内容的帮助。我们认为，SRAI公平性需要一个多轴框架：在总体排序上等价的方法，在决定现实世界危害的失败模式上却截然不同。

## 1 问题与目标

问题陈述。毒性分类器常常学习身份提及与毒性标签之间的虚假相关性。由于仇恨言论经常与提及受保护群体同时出现，模型将身份词视为毒性信号。这导致中性或反种族主义内容被不成比例地惩罚，产生系统性误报。在固定的概率阈值下，这些相关性会转化为差异化的审核结果。

整合的公平性轴心。标准评估侧重于排序指标（BPSN/BNSP AUC），并将校准或弃权视为单独的质量问题。我们认为这种分离具有误导性，原因有三。首先，校准差异是一种公平性违规：如果置信度对应不同群体上的不同准确率，那么基于阈值的决策本身就是有偏的。其次，弃权效能是一个公平性属性：基于置信度的弃权只有在置信度均匀地跟踪正确性时才有效。第三，事后干预继承了来自训练的失败模式。温度缩放、阈值优化和弃权的成败取决于训练方法如何塑造概率分布。

映射到SRAI原则。这三个轴对应于核心的社会责任AI功能。保护免受差异化标记需要公平的排序和公平的校准。信息（不确定性报告）需要每个子组的校准均等性，以便置信度分数对所有内容都有意义。通过弃权进行预防和缓解要求弃权均匀地起作用：如果弃权仅对背景内容有效，那么这个安全网就是不公平的。

贡献。

1. 1.多方法比较。我们评估了ERM、重加权ERM和Group DRO，并结合了三种事后干预，对所有指标使用配对bootstrap 95%置信区间（n=1000）。
2. 2.校准作为公平性。我们引入了校准-公平性差距（子组ECE减去背景ECE）。我们表明，尽管总体校准近乎完美，ERM在每个身份子组上都显著失准。
3. 3.非支配权衡。我们将训练方法描述为占据不同的位置：ERM排序最差但弃权最干净；重加权ERM排序最好但恶化了校准差距；Group DRO修复了校准均等性但破坏了弃权。
4. 4.事后依赖性。我们证明了干预效能由训练方法决定。弃权在ERM下有效，在重加权ERM下部分有效，在Group DRO下失败，因为DRO的训练将置信度与正确性解耦。

## 2 相关工作

毒性分类中的偏差。Dixon等人 (dixon2018measuring, (https://arxiv.org/html/2605.14074#bib.bib2)) 记录了早期分类器中的差异化错误率，而Borkan等人 (borkan2019nuanced, (https://arxiv.org/html/2605.14074#bib.bib1)) 形式化了BPSN和BNSP AUC指标，并发布了Civil Comments数据集。Garg等人 (garg2019counterfactual, (https://arxiv.org/html/2605.14074#bib.bib10)) 指出排序指标可能掩盖阈值层面的部署失败，这促使我们采用将排序与校准和尾部分布分析相结合的综合框架。

组鲁棒性。Sagawa等人 (sagawa2020distributionally, (https://arxiv.org/html/2605.14074#bib.bib7)) 为公平学习制定了Group DRO，但后来的工作表明重加权通常能达到其性能 (idrissi2022simple, (https://arxiv.org/html/2605.14074#bib.bib5))。我们在Civil Comments上复制了这一点，并表明DRO和重加权在校准公平性上存在显著差异，这是先前比较未衡量的一个轴。

校准作为公平性。Guo等人 (guo2017calibration, (https://arxiv.org/html/2605.14074#bib.bib4)) 引入了温度缩放来解决神经网络失准问题。Pleiss等人 (pleiss2017calibrationfairness, (https://arxiv.org/html/2605.14074#bib.bib11)) 认为跨群体的校准均等性是一个至关重要的公平性标准。我们的工作使用带bootstrap置信区间的每个子组ECE，将这个均等性与下游弃权效能联系起来。

选择性预测。Geifman和El-Yaniv (geifman2017selective, (https://arxiv.org/html/2605.14074#bib.bib3)) 通过风险-覆盖率曲线形式化了基于置信度的弃权。我们按子组评估这种联系，表明弃权效能随身份群体系统性地变化，使得安全机制本身成为一个公平性问题。

仇恨言论泛化。Mathew等人 (mathew2021hatexplain, (https://arxiv.org/html/2605.14074#bib.bib6)) 发布了HateXplain用于可解释性。我们将其用于零样本迁移，将跨数据集性能视为部署和泛化问题，而不是直接的公平性比较。

## 3 数据

Civil Comments。我们使用Jigsaw数据集 (borkan2019nuanced, (https://arxiv.org/html/2605.14074#bib.bib1))，包含180万条评论。毒性和身份提及分数以0.5为阈值二值化，产生8%的正类率。我们分层下采样至20万条样本，按80/10/10比例分为训练集（16万）、验证集（2万）和测试集（2万），使用`random_state=42`。

组分配。样本根据首先提到的身份被分配到组 g = (identity, y)。测试集包含18,217个背景样本（未提及身份）和八个有足够支持的身份组：白人(276)、穆斯林(247)、同性恋/女同性恋(129)、黑人(146)、犹太人(83)、基督徒、女性和男性。n < 50的组（例如，印度教徒、无神论者）从报告的指标中排除，以确保稳健的自举估计。

HateXplain。对于零样本迁移，我们使用HateXplain (mathew2021hatexplain, (https://arxiv.org/html/2605.14074#bib.bib6))。多数投票标签将`hate`映射为 y=1，其他映射为 y=0。测试集包含1,924条样本（30.9%有毒）。我们用它来评估新闻评论与社交媒体帖子之间领域差距的泛化能力。

## 4 方法

我们将方法分为训练阶段干预（产生不同模型）和事后干预（对训练输出进行操作）。这两者是耦合的：事后机制的效能由训练方法决定。

ERM基线。我们对`distilbert-base-uncased`进行微调，使用交叉熵损失，训练2个周期，批次大小16，线性学习率调度（从5×10⁻⁵到0）。ERM作为基线，均匀地最小化平均损失，不具子组意识。

重加权ERM。我们根据组频率对每个样本施加权重 w_i = N / (G · n_{g_i})。权重被裁剪到50.0，以防止稀有组主导梯度。这作为ERM和自适应DRO之间的中间选择。

Group DRO。我们实现自适应的每组权重 q_g，每批次通过 q_g ← q_g · exp(η L_g) 更新，其中 η = 0.001。这种极小极大目标专注于损失最高的组。

温度缩放。我们通过验证集NLL网格搜索学习标量 T ∈ [0.5, 5.0]，以产生 p_cal = softmax(z/T)。这可以修正均匀失准，但无法修复选择性的、特定子组的错误。

基于置信度的弃权。我们将置信度计算为 max(p(x), 1-p(x))。在覆盖率为c时，我们保留预测值的前c分数来计算错误率，产生风险-覆盖率曲线。这种安全机制假设置信度均匀地跟踪所有子组的正确性。

每个身份组阈值优化。我们在验证集上对 τ_g ∈ [0.1, 0.9] 进行网格搜索，以最小化子组与背景之间的绝对误差差距。这种均匀偏移修正只能修复表现为恒定概率偏移的偏差。

校准公平性差距。我们分别计算每个子组和背景的ECE。校准-公平性差距定义为 ΔECE(g) = ECE(g) - ECE(background)，使用15个等宽分箱。置信区间排除零的差距表示公平性违规，无论排序性能如何。

统计推断。对于所有估计，我们运行1000次配对bootstrap迭代。我们报告均值和95%置信区间（2.5/97.5百分位数）。只有当置信区间排除零时，差异才被认为是显著的。

## 5 评估框架

公平性是一个多轴属性。表1 (https://arxiv.org/html/2605.14074#S5.T1) 将这些轴映射到具体的指标和干预措施。

表1：综合评估框架。所有结果均包含配对bootstrap 95%置信区间。
| 轴心 / 交互 | 指标 | 方法 | 目的 |
| :--- | :--- | :--- | :--- |
| 排序公平性 | 子组、BPSN、BNSP AUC | ERM, Reweighted, DRO | 衡量子组内和跨子组的毒性排序。 |
| 校准公平性 | 子组ECE, ECE差距 | ERM, Reweighted, DRO | 检查置信度分数在不同群体上是否可靠。 |
| 尾部行为 | 良性% p>0.9 | ERM, Reweighted, DRO | 识别提及身份内容上的“自信-错误”误差。 |
| 阈值均等性 | τ=0.5时的误差差距 | ERM, Reweighted, DRO | 评估优化前部署级别的错误率。 |
| 事后耦合 | T*, τ_g*, Risk at c | ERM, Reweighted, DRO × T-scaling, abstention, threshold opt. | 测试事后修复能否修复每个训练器特有的误差。 |
| 泛化能力 | AUC, ECE, BPSN | ERM (HateXplain) | 探测跨数据集迁移作为部署问题。 |

## 6 结果

结果围绕三个公平性轴心组织：排序、校准和弃权。第6.1节 (https://arxiv.org/html/2605.14074#S6.SS1) 建立ERM基线。第6.2节 (https://arxiv.org/html/2605.14074#S6.SS2) 展示公平性方法如何重塑这些轴心。第6.3节 (https://arxiv.org/html/2605.14074#S6.SS3) 表明事后干预继承了每种训练方法的失败模式。第6.4节 (https://arxiv.org/html/2605.14074#S6.SS4) 综合了权衡关系。第6.5节 (https://arxiv.org/html/2605.14074#S6.SS5) 将发现根植于失败案例。第LABEL:sec:hatexplain节讨论零样本迁移。

### 6.1 ERM基线：隐藏的校准差异

ERM实现了总体AUC 0.940，ECE 0.013，错误率5.35%——这些总体指标看起来很强。子组分解揭示了两个隐藏的差异。

排序差异。表2 (https://arxiv.org/html/2605.14074#S6.T2) 显示，白人、黑人、同性恋/女同性恋和穆斯林子组的BPSN AUC ≤ 0.825，远低于总体AUC 0.940。白人的误差差距达到+0.199，该子组错误率约为背景的4倍。高BNSP伴随低BPSN是身份提及充当毒性信号的标志。

表2：ERM子组公平性。“n/a”表示有毒子组样本少于50，无法稳定估计BNSP。
校准差异。尽管总体ECE为0.013，每个身份子组的ECE都显著高于背景（表3 (https://arxiv.org/html/2605.14074#S6.T3)，所有置信区间排除零）。犹太人群体的差距达到+0.134，同性恋/女同性恋群体达到+0.087。模型在大量内容上校准良好，但在提及身份的内容上系统性过度自信。这是BPSN无法检测到的公平性违规：p=0.85的预测在提及白人内容上与在背景内容上对应的准确率不同。

表3：ERM校准-公平性差距。背景ECE=0.0099（n=18,217）。所有差距显著（置信区间排除零）。

### 6.2 训练阶段干预

表4 (https://arxiv.org/html/2605.14074#S6.T4) 显示了所有三种方法的总体指标。两种公平性方法都产生了显著的AUC下降。DRO的ECE上升了10倍；重加权ECE上升了3倍。没有子组分解，总体ECE信息量不足——这些方法产生了截然不同的校准分布。

表4：总体测试指标。两种方法的AUC下降相对于ERM显著（重加权CI [-0.019, -0.008]；DRO CI [-0.016, -0.007]）。
排序轴。两种公平性方法在所有八个身份组上都改善了BPSN AUC（表5 (https://arxiv.org/html/2605.14074#S6.T5)，所有置信区间排除零），其中重加权ERM在8个组中的7个领先。两者同时降低了每个可测量身份组上的BNSP，确认了真正的公平性-准确率权衡。子组AUC在方法间不变，表明方法是在组间重新排序排名，而不是改善组内区分度。

表5：三向BPSN/BNSP。粗体 = 最佳BPSN。所有BPSN增益和可测量的BNSP损失均显著（配对bootstrap置信区间排除零）。
校准轴。图1 (https://arxiv.org/html/2605.14074#S6.F1) 和表6 (https://arxiv.org/html/2605.14074#S6.T6) 显示了三种性质不同的校准轮廓。ERM有隐藏的子组差异（背景ECE 0.010，但每个子组显著失准）。重加权ERM放大了差异：背景ECE适度上升至0.025，而子组差距在白人组达到+0.232，黑人组达到+0.230，约为ERM差距的3倍——公平性干预恶化了校准差异。Group DRO消除了子组差异（每个差距的置信区间跨越零），但代价是全局均匀失准（背景ECE 0.118）。可靠性图（图2 (https://arxiv.org/html/2605.14074#S6.F2)）直观地确认了这些模式。

参见图注
图1：按方法划分的校准-公平性差距。ERM在所有八个身份组上均有显著差异。重加权显著恶化了差距。DRO消除了差异，但代价是全局均匀失准。
表6：校准

相似文章

DriftGuard：面向毒性审核演化的安全感知多监控检测与选择性自适应方法

arXiv cs.CL

介绍 DriftGuard，一个安全感知的自适应审核框架，使用多个监控器检测细微的、与安全相关的分布偏移，并通过硬混合自适应集选择性更新模型，从而提高在演进数据集上的毒性召回率。

多语言与代码混合滥用检测中毒性信号的条件可靠性

arXiv cs.CL

本文介绍了ToxGate，一种信任融合头，它将外部毒性信号在编码器表示上进行条件化，以改进多语言和代码混合的滥用检测，在多个数据集和编码器的高风险审核切片中展示了增益。

PSK@EEUCA 2026：利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性

arXiv cs.CL

本文介绍了一个用于 EEUCA 2026 游戏聊天毒性检测共享任务的系统，该系统通过结合合成数据增强微调 Llama 3.1 8B 模型，获得了第四名。文章重点阐述了一种“验证陷阱”现象：由于数据分布偏移，较高的验证分数与测试集表现并不相关。

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移来源：[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要经过安全调优的大语言模型（LLM）通常会回避承认人口统计差异，即使这种承认在事实上是正确的（例如，基于血统的

大型语言模型中的毒性测量与缓解：一项全面的复制研究

arXiv cs.CL

这项复制研究评估了DExperts在缓解LLM毒性方面的效果，发现其对显式毒性几乎完美安全，但对隐式仇恨言论效果降低，并且存在显著的延迟权衡。

相似文章

DriftGuard：面向毒性审核演化的安全感知多监控检测与选择性自适应方法

多语言与代码混合滥用检测中毒性信号的条件可靠性

PSK@EEUCA 2026：利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

大型语言模型中的毒性测量与缓解：一项全面的复制研究

提交意见反馈