DriftGuard:面向毒性审核演化的安全感知多监控检测与选择性自适应方法

arXiv cs.CL 论文

摘要

介绍 DriftGuard,一个安全感知的自适应审核框架,使用多个监控器检测细微的、与安全相关的分布偏移,并通过硬混合自适应集选择性更新模型,从而提高在演进数据集上的毒性召回率。

arXiv:2606.28725v1 公告类型:新 摘要:自动化毒性审核系统在动态在线环境中运行,其中有害行为通过编码语言、目标转移以及对执法的策略性适应而不断演化。现有的漂移检测方法通常关注全局分布变化,但此类信号可能遗漏局部有害子空间或高风险模型错误区域中出现的与安全相关的偏移。本文介绍 DriftGuard,一个结合多监控器漂移检测与选择性模型更新的安全感知自适应审核框架。该框架跟踪全局文本漂移、身份有害漂移、模型不确定性、毒性风险漂移以及假阴性风险漂移。当检测到与安全相关的变化时,使用优先考虑可能假阴性、身份相关高风险样本、假阳性风险样本以及不确定边界样本的硬混合自适应集对模型进行更新。在 Civil Comments 时间偏移和 Jigsaw 到 DynaHate 跨数据集偏移上的实验表明,安全感知监控器能够检测到仅靠全局漂移无法识别的风险。硬混合自适应在毒性召回率和准确率上优于不更新和随机平衡基线,在 Civil Comments 上将毒性召回率提升至 0.8777,在 DynaHate 上从 0.7107 提升至 0.8523。自助法分析进一步显示了 DynaHate 上稳定的安全增益,毒性召回率提高了 0.1418,假阴性率降低了 0.0781。总体而言,DriftGuard 将安全感知的漂移检测与有针对性的轻量级模型更新相结合,实现了更鲁棒的自适应毒性审核。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:27

# DriftGuard:面向演化毒性审核的安全感知多监测器检测与选择性适配
来源:https://arxiv.org/html/2606.28725
Yuting Xin†\\dagger\*Department of Informationand Decision SciencesUniversity of MinnesotaMinneapolis, USAyuting\.xin@outlook\.comHanyu Cai†\\daggerDepartment of Industrial Engineeringand Management SciencesNorthwestern UniversityEvanston, USAhanyucai2022@u\.northwestern\.eduBinqi ShenDepartment of Industrial Engineeringand Management SciencesNorthwestern UniversityEvanston, USAbinqishen2021@u\.northwestern\.eduLier JinFuqua School of BusinessDuke UniversityDurham, USAlierjin@alumni\.duke\.eduLan HuDepartment of EngineeringCarnegie Mellon UniversityPittsburgh, USAlanh@alumni\.cmu\.edu

###### 摘要

自动毒性审核系统在动态在线环境中运行,有害行为通过编码语言、目标转移以及对执法策略的适应性调整而不断演化。现有的漂移检测方法通常关注全局分布变化,但此类信号可能遗漏在局部有害子空间或高风险模型错误区域中出现的与安全相关的偏移。本文提出了 DriftGuard,一种将多监测器漂移检测与选择性模型更新相结合的安全感知自适应审核框架。该框架追踪全局文本漂移、身份有害性漂移、模型不确定性、毒性风险漂移以及假阴性风险漂移。当检测到与安全相关的变化时,使用硬混合适配集来更新模型,该适配集优先包含可能的假阴性、与身份相关的高风险样例、假阳性风险样例以及不确定的边界情况。在 Civil Comments 时间漂移和 Jigsaw-to-DynaHate 跨数据集漂移上的实验表明,安全感知监测器能够检测到仅靠全局漂移无法发现的风险。硬混合适配在毒性召回率和准确率上优于无更新和随机平衡基线,在 Civil Comments 上将毒性召回率提升至 0.8777,在 DynaHate 上从 0.7107 提升至 0.8523。Bootstrap 分析进一步表明 DynaHate 上的安全增益稳定,毒性召回率提高 0.1418,假阴性流行率降低 0.0781。总体而言,DriftGuard 将安全感知的漂移检测与有针对性的轻量级模型更新联系起来,实现了更稳健的自适应毒性审核。

## I 引言

自动毒性审核系统正被大规模部署,用于识别有害的用户生成内容。尽管现代分类器在其原始训练分布上表现良好,但审核环境是非平稳的:用户会更改措辞、使用编码语言、转移目标,并对平台执法策略做出策略性回应,包括伪装有害意图的对抗性提示表述\[10 (https://arxiv.org/html/2606.28725#bib.bib1),39 (https://arxiv.org/html/2606.28725#bib.bib35),18 (https://arxiv.org/html/2606.28725#bib.bib38)\]。因此,最初能够可靠检测毒性或仇恨内容的模型,随着有害行为的演化,其效果可能会下降。这带来了实际需求:审核系统需要能够检测与安全相关的变化,并在无需频繁全量重训练的情况下高效适应\[26 (https://arxiv.org/html/2606.28725#bib.bib2)\].

一个核心挑战在于,审核中的分布偏移并不总是在聚合层面可见\[4 (https://arxiv.org/html/2606.28725#bib.bib3),29 (https://arxiv.org/html/2606.28725#bib.bib8)\]。近期关于 LLM 角色理解的工作重要地表明,表面上的基准成功可能反映的是记忆而非真正的推理,这进一步强化了我们的动机:监测与安全相关的行为,而非仅依赖聚合性能信号\[14 (https://arxiv.org/html/2606.28725#bib.bib26)\]。许多漂移检测方法监控输入或预测分布的广泛变化,但有害行为可能出现在局部的安全关键区域,这强化了使用与安全相关的行为而非仅凭表层聚合指标来评估审核系统的必要性\[38 (https://arxiv.org/html/2606.28725#bib.bib36)\]。在这些情况下,即使模型更可能漏掉有害内容,全局文本漂移也可能保持适度\[24 (https://arxiv.org/html/2606.28725#bib.bib5)\]。因此,自适应审核需要监控的信号不仅与分布变化对齐,还要与审核风险对齐\[27 (https://arxiv.org/html/2606.28725#bib.bib4),34 (https://arxiv.org/html/2606.28725#bib.bib37),25 (https://arxiv.org/html/2606.28725#bib.bib25)\].

本文提出了一种安全感知的自适应审核框架,将多监测器漂移检测与选择性模型更新相结合。该框架通过全局分布漂移、有害子空间漂移、模型不确定性、毒性风险漂移和假阴性风险漂移来监控传入数据。当任意一个或多个监测器指示与安全相关的变化时,模型会使用由高风险和信息性样例组成的硬混合适配集进行更新,而非随机抽取最近的数据样本。这种设计使适配能够聚焦于最可能影响审核安全性的样例类型,同时保持更新的针对性和轻量性\[30 (https://arxiv.org/html/2606.28725#bib.bib7)\].

本文做出三项贡献。首先,将审核漂移形式化为一个安全感知的监测问题,其中全局分布偏移由有害子空间和模型风险信号补充。其次,引入了一种多监测器触发机制,配合硬混合选择性适配,将漂移检测直接连接到模型更新。第三,在时间和跨域审核漂移下评估该框架,表明安全感知监测器能够检测到仅靠全局漂移无法发现的有目标有害偏移,并且与无更新和随机平衡更新基线相比,硬混合适配能提升毒性召回率和整体鲁棒性。

## II 相关工作

先前的工作主要将漂移检测、毒性审核和高效适配视为独立问题。然而,自适应审核需要将这些组件连接起来:系统必须检测与安全相关的漂移,判断漂移是否影响到有害或高风险子空间,并使用信息性样例而非随机近期数据来更新模型。我们的工作通过多监测器有害感知触发器和硬混合适配策略弥补了这一空白。

### II-A 分布漂移与漂移监测

分布偏移是部署机器学习系统面临的核心挑战。模型通常在某个数据生成分布下训练,但部署条件可能随时间变化,产生协变量偏移、标签偏移或概念漂移。先前的工作已形式化了这些偏移类型,并开发了检测和适配非平稳数据流的方法。关于概念漂移的综述强调,部署的模型不仅需要漂移检测,还需要漂移理解和适配,因为未处理的漂移可能导致模型性能随时间退化\[3 (https://arxiv.org/html/2606.28725#bib.bib6)\]。近期更侧重于部署的工作同样认为,模型监测应追踪特征、预测、与性能相关的信号以及解释稳定性,而不是假设静态验证集在部署后仍具有代表性\[24 (https://arxiv.org/html/2606.28725#bib.bib5),19 (https://arxiv.org/html/2606.28725#bib.bib42)\].

大量工作通过统计检验、散度度量或学习到的表征来比较源分布和目标分布,以检测漂移。Rabanser 等人表明,数据集偏移通常可以通过降维后的双样本检验来检测,而域判别模型有助于表征观察到的偏移是否有害\[26 (https://arxiv.org/html/2606.28725#bib.bib2)\]。其他工作关注特定形式的偏移,例如标签偏移,其中类别先验发生变化而类条件分布保持稳定。例如,黑盒偏移估计利用训练分类器的预测来估计和校正标签偏移,无需目标标签\[21 (https://arxiv.org/html/2606.28725#bib.bib9)\]。诸如 WILDS 的基准进一步表明,即使在分布内表现良好的模型,真实世界的分布偏移也可能严重降低其分布外性能\[16 (https://arxiv.org/html/2606.28725#bib.bib10)\].

然而,现有的漂移监测方法通常将漂移视为输入或预测分布的全局属性。这对安全关键的审核来说是有局限的。首先,统计上可检测的偏移并不总是等同于与安全相关的模型性能下降;生产监测研究发现,特征或预测漂移可能发生而性能并未相应下降,而近期关于基础模型监测的工作同样表明输入偏移与性能退化并不总是直接对齐\[9 (https://arxiv.org/html/2606.28725#bib.bib11)\]。近期关于 RAG 可靠性的研究提供了重要证据:表层相关性不足以保证模型行为的可靠性;检索到的上下文可能会在知识冲突下塑造输出,而主题相关的引用仍然可能无法支撑所生成的声明\[5 (https://arxiv.org/html/2606.28725#bib.bib24),25 (https://arxiv.org/html/2606.28725#bib.bib25)\]。其次,全局漂移指标可能掩盖数据中子群体或高风险区域中的局部变化。在审核中,即使聚合输入分布仅发生适度变化,针对身份的辱骂或假阴性风险样例的少量增加可能在操作上至关重要。与之相关的工作,如差异感知融合和结构化语义信号,也凸显了在噪声或特定领域条件下整合互补信号的价值\[7 (https://arxiv.org/html/2606.28725#bib.bib28),41 (https://arxiv.org/html/2606.28725#bib.bib41)\]。我们的工作建立在漂移监测研究的基础上,但将焦点从仅关注全局分布变化转向安全感知监测,将全局漂移与有害子空间和模型风险信号相结合。

### II-B 毒性审核与有害子空间

自动毒性及仇恨言论检测具有挑战性,因为有害内容因目标群体、语言形式和社会背景而异。先前的工作表明,聚合分类指标可能隐藏重要的子群体失败。关于仇恨言论检测的系统性综述指出了持续存在的问题,包括任务定义模糊、类别不平衡、上下文依赖性以及有限的跨域泛化能力\[13 (https://arxiv.org/html/2606.28725#bib.bib12),23 (https://arxiv.org/html/2606.28725#bib.bib13)\].

一个关键关注点是审核模型中的意外偏差。Borkan 等人引入了 Civil Comments 身份注释和用于衡量毒性分类器子群体偏差的指标\[4 (https://arxiv.org/html/2606.28725#bib.bib3)\]。相关工作表明,辱骂性言语分类器可能对方言或身份相关的语言过度预测毒性,从而对被边缘化群体产生不成比例的错误\[29 (https://arxiv.org/html/2606.28725#bib.bib8),8 (https://arxiv.org/html/2606.28725#bib.bib14)\]。这些发现促使在有害子空间层面进行评估和监测,而非仅仅在聚合数据集层面。关于合成医疗数据公平性的类似工作表明,生成的数据库中可能持续存在子群体表征不平衡,这进一步强化了监测受保护或高风险子空间而非仅依赖聚合数据质量的必要性\[28 (https://arxiv.org/html/2606.28725#bib.bib29)\].

近期的基准进一步强调有针对性的诊断评估。HateXplain 提供了目标社区和理由注释\[22 (https://arxiv.org/html/2606.28725#bib.bib15)\],HateCheck 引入了仇恨言论模型的功能测试\[27 (https://arxiv.org/html/2606.28725#bib.bib4)\],而 DynaHate 使用人机协同数据生成来暴露具有挑战性的仇恨言论样例\[32 (https://arxiv.org/html/2606.28725#bib.bib16)\]。这些研究表明,审核失败通常出现在数据中特定的行为或身份相关区域。

我们的工作建立在这些文献的基础上,将有害子空间信号从事后诊断评估转移到漂移触发的适配中。我们的框架不局限于监测全局文本漂移,而是追踪与安全相关的子空间,如身份有害性和假阴性风险区域,并利用这些信号来决定何时需要进行模型更新。

### II-C 选择性适配与高效模型更新

另一条研究线关注当新数据可用时,如何高效更新模型。主动学习选择信息性样例进行标注或训练,通常采用不确定性、多样性或期望模型改进作为选择标准\[40 (https://arxiv.org/html/2606.28725#bib.bib17),17 (https://arxiv.org/html/2606.28725#bib.bib18)\]。相关的困难样例挖掘方法优先处理困难或错误分类的样例,而非平等对待所有训练样本。在线困难样例挖掘和焦点损失均表明,在类别不平衡或大量简单样例的情况下,强调困难或高损失的样例可以提高学习效率\[31 (https://arxiv.org/html/2606.28725#bib.bib19),20 (https://arxiv.org/html/2606.28725#bib.bib20)\]。这些思想启发了选择性更新策略,将适配集中在最可能影响模型行为的样例上\[37 (https://arxiv.org/html/2606.28725#bib.bib33)\]。近期关于策略蒸馏的工作引入了令牌重要性选择,表明高熵和高散度的令牌可以提供特别有用的学习信号,并可以优先考虑以降低训练成本同时保持性能\[36 (https://arxiv.org/html/2606.28725#bib.bib32)\].

对于大型神经网络,全量微调在计算上可能很昂贵,不适合频繁更新。参数高效微调方法通过仅更新一小部分参数或添加轻量级可训练模块来解决这一问题。LoRA 冻结基座模型并学习低秩更新矩阵,大幅减少可训练参数和内存成本,同时保持下游性能\[12 (https://arxiv.org/html/2606.28725#bib.bib21)\]。近期的 PEFT 综述进一步表明,参数高效适配已成为在有限计算和部署约束下定制大型模型的实用方法\[11 (https://arxiv.org/html/2606.28725#bib.bib22),33 (https://arxiv.org/html/2606.28725#bib.bib23),2 (https://arxiv.org/html/2606.28725#bib.bib31),42 (https://arxiv.org/html/2606.28725#bib.bib40)\]。关于结构化医疗报告标准化的相关工作同样突出了将有噪声的文本输入转换为更一致的监督信号以进行稳健模型训练的价值\[6 (https://arxiv.org/html/2606.28725#bib.bib39)\]。这种对部署效率的强调与近期关于大型推理模型的工作一致,其中已使用剪枝和蒸馏来降低推理成本同时保持任务性能\[15 (https://arxiv.org/html/2606.28725#bib.bib27)\]。关于自适应分布式学习的相关研究工作同样强调了监测部署条件并调整压缩策略以平衡效率和模型性能的价值\[35 (https://arxiv.org/html/2606.28725#bib.bib34)\].

我们的工作将选择性样本选择与参数高效更新相结合,用于自适应审核。提出的

相似文章

基于稳健训练和弃权的公平且校准的毒性检测

arXiv cs.LG

本文研究了毒性分类中的公平性问题,涵盖三个维度:排序、校准和弃权。比较了经验风险最小化(ERM)、加权ERM和群体分布鲁棒优化(Group DRO)方法,并结合后处理干预措施,发现校准差异是一种隐蔽的公平性违反,且弃权本身也可能不公平。

DART:通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移 来源:[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要 经过安全调优的大语言模型(LLM)通常会回避承认人口统计差异,即使这种承认在事实上是正确的(例如,基于血统的

SafeDiffusion-R1: 在线奖励引导的安全扩散后训练

Hugging Face Daily Papers

SafeDiffusion-R1 引入了一个基于 GRPO 和引导奖励机制的在线强化学习框架,用于提升扩散模型的安全性,无需监督数据或奖励调优,在多个有害类别上实现了最先进的性能。