基于稳健训练和弃权的公平且校准的毒性检测
摘要
本文研究了毒性分类中的公平性问题,涵盖三个维度:排序、校准和弃权。比较了经验风险最小化(ERM)、加权ERM和群体分布鲁棒优化(Group DRO)方法,并结合后处理干预措施,发现校准差异是一种隐蔽的公平性违反,且弃权本身也可能不公平。
查看缓存全文
缓存时间: 2026/05/15 06:27
# 公平且校准的毒性检测:通过鲁棒训练与弃权机制
来源:https://arxiv.org/html/2605.14074
###### 摘要
毒性分类中的公平性涉及三个整合的轴心:排序、校准和弃权。训练阶段的干预措施和事后安全机制无法独立评估,因为前者决定了后者的效能。我们比较了经验风险最小化(ERM)、实例级重加权和Group DRO在这三个轴上的表现,并结合了温度缩放、基于置信度的弃权以及每个身份组的阈值优化。评估使用了子组AUC、BPSN/BNSP AUC、误差差距以及每个子组的期望校准误差(ECE),并附有bootstrap置信区间(n=1000)。
我们报告了四个发现。(1)校准差异是一个隐藏的公平性违规。ERM在总体水平上近乎完美校准(0.013),但在每个身份子组上均显著失准(+0.029至+0.134)。(2)训练干预重塑而非消除差异。重加权ERM改善了排序(BPSN AUC提升+0.06至+0.12),但校准-公平性差距恶化了多达+0.232。Group DRO消除了校准差异,但代价是全局均匀失准(ECE 0.118)。(3)事后方法继承了训练失败模式。温度缩放失败,因为失准是非均匀的。基于置信度的弃权在ERM下有效,但在DRO下失效,风险-覆盖率曲线随着弃权率上升而上升。(4)弃权本身也是不公平的。基于置信度的弃权对背景内容的帮助远大于对提及身份内容的帮助。我们认为,SRAI公平性需要一个多轴框架:在总体排序上等价的方法,在决定现实世界危害的失败模式上却截然不同。
## 1 问题与目标
问题陈述。毒性分类器常常学习身份提及与毒性标签之间的虚假相关性。由于仇恨言论经常与提及受保护群体同时出现,模型将身份词视为毒性信号。这导致中性或反种族主义内容被不成比例地惩罚,产生系统性误报。在固定的概率阈值下,这些相关性会转化为差异化的审核结果。
整合的公平性轴心。标准评估侧重于排序指标(BPSN/BNSP AUC),并将校准或弃权视为单独的质量问题。我们认为这种分离具有误导性,原因有三。首先,校准差异是一种公平性违规:如果置信度对应不同群体上的不同准确率,那么基于阈值的决策本身就是有偏的。其次,弃权效能是一个公平性属性:基于置信度的弃权只有在置信度均匀地跟踪正确性时才有效。第三,事后干预继承了来自训练的失败模式。温度缩放、阈值优化和弃权的成败取决于训练方法如何塑造概率分布。
映射到SRAI原则。这三个轴对应于核心的社会责任AI功能。保护免受差异化标记需要公平的排序和公平的校准。信息(不确定性报告)需要每个子组的校准均等性,以便置信度分数对所有内容都有意义。通过弃权进行预防和缓解要求弃权均匀地起作用:如果弃权仅对背景内容有效,那么这个安全网就是不公平的。
贡献。
1. 1.多方法比较。我们评估了ERM、重加权ERM和Group DRO,并结合了三种事后干预,对所有指标使用配对bootstrap 95%置信区间(n=1000)。
2. 2.校准作为公平性。我们引入了校准-公平性差距(子组ECE减去背景ECE)。我们表明,尽管总体校准近乎完美,ERM在每个身份子组上都显著失准。
3. 3.非支配权衡。我们将训练方法描述为占据不同的位置:ERM排序最差但弃权最干净;重加权ERM排序最好但恶化了校准差距;Group DRO修复了校准均等性但破坏了弃权。
4. 4.事后依赖性。我们证明了干预效能由训练方法决定。弃权在ERM下有效,在重加权ERM下部分有效,在Group DRO下失败,因为DRO的训练将置信度与正确性解耦。
## 2 相关工作
毒性分类中的偏差。Dixon等人 (dixon2018measuring, (https://arxiv.org/html/2605.14074#bib.bib2)) 记录了早期分类器中的差异化错误率,而Borkan等人 (borkan2019nuanced, (https://arxiv.org/html/2605.14074#bib.bib1)) 形式化了BPSN和BNSP AUC指标,并发布了Civil Comments数据集。Garg等人 (garg2019counterfactual, (https://arxiv.org/html/2605.14074#bib.bib10)) 指出排序指标可能掩盖阈值层面的部署失败,这促使我们采用将排序与校准和尾部分布分析相结合的综合框架。
组鲁棒性。Sagawa等人 (sagawa2020distributionally, (https://arxiv.org/html/2605.14074#bib.bib7)) 为公平学习制定了Group DRO,但后来的工作表明重加权通常能达到其性能 (idrissi2022simple, (https://arxiv.org/html/2605.14074#bib.bib5))。我们在Civil Comments上复制了这一点,并表明DRO和重加权在校准公平性上存在显著差异,这是先前比较未衡量的一个轴。
校准作为公平性。Guo等人 (guo2017calibration, (https://arxiv.org/html/2605.14074#bib.bib4)) 引入了温度缩放来解决神经网络失准问题。Pleiss等人 (pleiss2017calibrationfairness, (https://arxiv.org/html/2605.14074#bib.bib11)) 认为跨群体的校准均等性是一个至关重要的公平性标准。我们的工作使用带bootstrap置信区间的每个子组ECE,将这个均等性与下游弃权效能联系起来。
选择性预测。Geifman和El-Yaniv (geifman2017selective, (https://arxiv.org/html/2605.14074#bib.bib3)) 通过风险-覆盖率曲线形式化了基于置信度的弃权。我们按子组评估这种联系,表明弃权效能随身份群体系统性地变化,使得安全机制本身成为一个公平性问题。
仇恨言论泛化。Mathew等人 (mathew2021hatexplain, (https://arxiv.org/html/2605.14074#bib.bib6)) 发布了HateXplain用于可解释性。我们将其用于零样本迁移,将跨数据集性能视为部署和泛化问题,而不是直接的公平性比较。
## 3 数据
Civil Comments。我们使用Jigsaw数据集 (borkan2019nuanced, (https://arxiv.org/html/2605.14074#bib.bib1)),包含180万条评论。毒性和身份提及分数以0.5为阈值二值化,产生8%的正类率。我们分层下采样至20万条样本,按80/10/10比例分为训练集(16万)、验证集(2万)和测试集(2万),使用`random_state=42`。
组分配。样本根据首先提到的身份被分配到组 g = (identity, y)。测试集包含18,217个背景样本(未提及身份)和八个有足够支持的身份组:白人(276)、穆斯林(247)、同性恋/女同性恋(129)、黑人(146)、犹太人(83)、基督徒、女性和男性。n < 50的组(例如,印度教徒、无神论者)从报告的指标中排除,以确保稳健的自举估计。
HateXplain。对于零样本迁移,我们使用HateXplain (mathew2021hatexplain, (https://arxiv.org/html/2605.14074#bib.bib6))。多数投票标签将`hate`映射为 y=1,其他映射为 y=0。测试集包含1,924条样本(30.9%有毒)。我们用它来评估新闻评论与社交媒体帖子之间领域差距的泛化能力。
## 4 方法
我们将方法分为训练阶段干预(产生不同模型)和事后干预(对训练输出进行操作)。这两者是耦合的:事后机制的效能由训练方法决定。
ERM基线。我们对`distilbert-base-uncased`进行微调,使用交叉熵损失,训练2个周期,批次大小16,线性学习率调度(从5×10⁻⁵到0)。ERM作为基线,均匀地最小化平均损失,不具子组意识。
重加权ERM。我们根据组频率对每个样本施加权重 w_i = N / (G · n_{g_i})。权重被裁剪到50.0,以防止稀有组主导梯度。这作为ERM和自适应DRO之间的中间选择。
Group DRO。我们实现自适应的每组权重 q_g,每批次通过 q_g ← q_g · exp(η L_g) 更新,其中 η = 0.001。这种极小极大目标专注于损失最高的组。
温度缩放。我们通过验证集NLL网格搜索学习标量 T ∈ [0.5, 5.0],以产生 p_cal = softmax(z/T)。这可以修正均匀失准,但无法修复选择性的、特定子组的错误。
基于置信度的弃权。我们将置信度计算为 max(p(x), 1-p(x))。在覆盖率为c时,我们保留预测值的前c分数来计算错误率,产生风险-覆盖率曲线。这种安全机制假设置信度均匀地跟踪所有子组的正确性。
每个身份组阈值优化。我们在验证集上对 τ_g ∈ [0.1, 0.9] 进行网格搜索,以最小化子组与背景之间的绝对误差差距。这种均匀偏移修正只能修复表现为恒定概率偏移的偏差。
校准公平性差距。我们分别计算每个子组和背景的ECE。校准-公平性差距定义为 ΔECE(g) = ECE(g) - ECE(background),使用15个等宽分箱。置信区间排除零的差距表示公平性违规,无论排序性能如何。
统计推断。对于所有估计,我们运行1000次配对bootstrap迭代。我们报告均值和95%置信区间(2.5/97.5百分位数)。只有当置信区间排除零时,差异才被认为是显著的。
## 5 评估框架
公平性是一个多轴属性。表1 (https://arxiv.org/html/2605.14074#S5.T1) 将这些轴映射到具体的指标和干预措施。
表1:综合评估框架。所有结果均包含配对bootstrap 95%置信区间。
| 轴心 / 交互 | 指标 | 方法 | 目的 |
| :--- | :--- | :--- | :--- |
| 排序公平性 | 子组、BPSN、BNSP AUC | ERM, Reweighted, DRO | 衡量子组内和跨子组的毒性排序。 |
| 校准公平性 | 子组ECE, ECE差距 | ERM, Reweighted, DRO | 检查置信度分数在不同群体上是否可靠。 |
| 尾部行为 | 良性% p>0.9 | ERM, Reweighted, DRO | 识别提及身份内容上的“自信-错误”误差。 |
| 阈值均等性 | τ=0.5时的误差差距 | ERM, Reweighted, DRO | 评估优化前部署级别的错误率。 |
| 事后耦合 | T*, τ_g*, Risk at c | ERM, Reweighted, DRO × T-scaling, abstention, threshold opt. | 测试事后修复能否修复每个训练器特有的误差。 |
| 泛化能力 | AUC, ECE, BPSN | ERM (HateXplain) | 探测跨数据集迁移作为部署问题。 |
## 6 结果
结果围绕三个公平性轴心组织:排序、校准和弃权。第6.1节 (https://arxiv.org/html/2605.14074#S6.SS1) 建立ERM基线。第6.2节 (https://arxiv.org/html/2605.14074#S6.SS2) 展示公平性方法如何重塑这些轴心。第6.3节 (https://arxiv.org/html/2605.14074#S6.SS3) 表明事后干预继承了每种训练方法的失败模式。第6.4节 (https://arxiv.org/html/2605.14074#S6.SS4) 综合了权衡关系。第6.5节 (https://arxiv.org/html/2605.14074#S6.SS5) 将发现根植于失败案例。第LABEL:sec:hatexplain节讨论零样本迁移。
### 6.1 ERM基线:隐藏的校准差异
ERM实现了总体AUC 0.940,ECE 0.013,错误率5.35%——这些总体指标看起来很强。子组分解揭示了两个隐藏的差异。
排序差异。表2 (https://arxiv.org/html/2605.14074#S6.T2) 显示,白人、黑人、同性恋/女同性恋和穆斯林子组的BPSN AUC ≤ 0.825,远低于总体AUC 0.940。白人的误差差距达到+0.199,该子组错误率约为背景的4倍。高BNSP伴随低BPSN是身份提及充当毒性信号的标志。
表2:ERM子组公平性。“n/a”表示有毒子组样本少于50,无法稳定估计BNSP。
校准差异。尽管总体ECE为0.013,每个身份子组的ECE都显著高于背景(表3 (https://arxiv.org/html/2605.14074#S6.T3),所有置信区间排除零)。犹太人群体的差距达到+0.134,同性恋/女同性恋群体达到+0.087。模型在大量内容上校准良好,但在提及身份的内容上系统性过度自信。这是BPSN无法检测到的公平性违规:p=0.85的预测在提及白人内容上与在背景内容上对应的准确率不同。
表3:ERM校准-公平性差距。背景ECE=0.0099(n=18,217)。所有差距显著(置信区间排除零)。
### 6.2 训练阶段干预
表4 (https://arxiv.org/html/2605.14074#S6.T4) 显示了所有三种方法的总体指标。两种公平性方法都产生了显著的AUC下降。DRO的ECE上升了10倍;重加权ECE上升了3倍。没有子组分解,总体ECE信息量不足——这些方法产生了截然不同的校准分布。
表4:总体测试指标。两种方法的AUC下降相对于ERM显著(重加权CI [-0.019, -0.008];DRO CI [-0.016, -0.007])。
排序轴。两种公平性方法在所有八个身份组上都改善了BPSN AUC(表5 (https://arxiv.org/html/2605.14074#S6.T5),所有置信区间排除零),其中重加权ERM在8个组中的7个领先。两者同时降低了每个可测量身份组上的BNSP,确认了真正的公平性-准确率权衡。子组AUC在方法间不变,表明方法是在组间重新排序排名,而不是改善组内区分度。
表5:三向BPSN/BNSP。粗体 = 最佳BPSN。所有BPSN增益和可测量的BNSP损失均显著(配对bootstrap置信区间排除零)。
校准轴。图1 (https://arxiv.org/html/2605.14074#S6.F1) 和表6 (https://arxiv.org/html/2605.14074#S6.T6) 显示了三种性质不同的校准轮廓。ERM有隐藏的子组差异(背景ECE 0.010,但每个子组显著失准)。重加权ERM放大了差异:背景ECE适度上升至0.025,而子组差距在白人组达到+0.232,黑人组达到+0.230,约为ERM差距的3倍——公平性干预恶化了校准差异。Group DRO消除了子组差异(每个差距的置信区间跨越零),但代价是全局均匀失准(背景ECE 0.118)。可靠性图(图2 (https://arxiv.org/html/2605.14074#S6.F2))直观地确认了这些模式。
参见图注
图1:按方法划分的校准-公平性差距。ERM在所有八个身份组上均有显著差异。重加权显著恶化了差距。DRO消除了差异,但代价是全局均匀失准。
表6:校准相似文章
PSK@EEUCA 2026:利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性
本文介绍了一个用于 EEUCA 2026 游戏聊天毒性检测共享任务的系统,该系统通过结合合成数据增强微调 Llama 3.1 8B 模型,获得了第四名。文章重点阐述了一种“验证陷阱”现象:由于数据分布偏移,较高的验证分数与测试集表现并不相关。
DART:通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移
# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移 来源:[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要 经过安全调优的大语言模型(LLM)通常会回避承认人口统计差异,即使这种承认在事实上是正确的(例如,基于血统的
大型语言模型中的毒性测量与缓解:一项全面的复制研究
这项复制研究评估了DExperts在缓解LLM毒性方面的效果,发现其对显式毒性几乎完美安全,但对隐式仇恨言论效果降低,并且存在显著的延迟权衡。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。
更难防御:面向中文的通过隐式增强与混淆重写实现的毒性攻击
本文提出了CITA框架,用于生成中文隐式毒性攻击,以评估和改进大语言模型的毒性检测器,在测试模型上实现了较高的攻击成功率。