大型语言模型中的毒性测量与缓解：一项全面的复制研究

arXiv cs.CL 2026/05/15 04:00 论文

toxicity safety llm mitigation replication-study hate-speech

摘要

这项复制研究评估了DExperts在缓解LLM毒性方面的效果，发现其对显式毒性几乎完美安全，但对隐式仇恨言论效果降低，并且存在显著的延迟权衡。

arXiv:2605.14087v1 公告类型: 新摘要: 大型语言模型（LLM）在基于网络规模语料库进行训练时，会固有地从其训练数据中吸收毒性模式。这导致“毒性退化”，即使是无害的提示也可能触发有害输出。这种现象对实际部署构成了重大风险。因此，需要有效的缓解策略，在确保安全的同时保持模型效用。在这项全面的复制研究中，我们评估了\textbf{DExperts}（解码时专家）的有效性，这是一种推理时缓解技术，无需重新训练模型即可引导生成。我们将研究分为三个系统阶段：（1）使用\textbf{RealToxicityPrompts}在标准GPT-2模型上建立基线毒性测量；（2）实施并评估DExperts以缓解显式毒性；（3）使用对抗性\textbf{ToxiGen}数据集对该方法进行压力测试，以应对隐式仇恨言论。我们的实证结果证实，虽然DExperts在显式毒性基准上达到了近乎完美的安全率（100%），但在对抗性隐式仇恨言论面前表现出脆弱性，安全率降至98.5%。此外，我们量化了一个关键的权衡：该方法引入了约10倍的延迟惩罚（从每次生成的0.2秒增加到2.0秒），这对实时部署场景构成了挑战。本研究通过揭示显式与隐式毒性缓解之间的鲁棒性差距，为日益增长的AI安全研究做出了贡献。我们强调需要更复杂的方法，能够在不同的仇恨言论模式中泛化，同时避免过高的计算成本。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:19

# 衡量并缓解大型语言模型中的毒性：一项全面复制研究
来源：https://arxiv.org/html/2605.14087
，Archit Rathod伊利诺伊大学芝加哥分校美国伊利诺伊州芝加哥arath21@uic\.edu (https://arxiv.org/html/2605.14087v1/mailto:[email protected])以及Akshaj Kurra Satishkumar伊利诺伊大学芝加哥分校美国伊利诺伊州芝加哥akurr@uic\.edu (https://arxiv.org/html/2605.14087v1/mailto:[email protected])

\(2018\)

###### 摘要。

大型语言模型（LLMs）在基于网络规模语料库进行训练时，会不可避免地从其训练数据中吸收毒性模式。这导致了“毒性退化”现象，即即使是良性的提示词也可能触发有害输出。这种现象为实际部署带来了重大风险。因此，亟需有效的缓解策略，这些策略应在确保安全性的同时保持模型效用。在这项全面的复制研究中，我们评估了DExperts（解码时专家）的有效性，这是一种推理时缓解技术，无需重新训练模型即可引导生成过程。我们将研究结构化为三个系统性的阶段：（1）使用标准GPT-2模型上的RealToxicityPrompts建立基线毒性测量；（2）实施并评估DExperts以缓解显性毒性；以及（3）使用对抗性的ToxiGen数据集对方法进行针对隐性仇恨言论的压力测试。我们的实证结果证实，虽然DExperts在显性毒性基准上达到了近乎完美的安全率（100%），但它在对抗性、隐性的仇恨言论面前表现出脆弱性，安全率降至98.5%。此外，我们量化了一个关键的权衡：该方法引入了约∼10倍的延迟惩罚（每次生成从0.2秒增加到2.0秒），给实时部署场景带来了挑战。本研究通过强调显性和隐性毒性缓解之间的鲁棒性差距，为日益增长的AI安全工作领域做出了贡献。我们强调需要更复杂的方法，这些方法能够在不同仇恨言论模式中实现泛化，同时避免过高的计算成本。

††版权：acmlicensedAI 使用声明：本报告生成过程中未使用任何 AI 工具。

## 1\. 引言

### 1\.1\. 动机与问题陈述

诸如 GPT-2、GPT-3 及其后继者的大型语言模型（LLMs）在自然语言理解和生成任务中展示了卓越的能力（brown2020language，(https://arxiv.org/html/2605.14087#bib.bib1); radford2019language，(https://arxiv.org/html/2605.14087#bib.bib2)）。这些模型在从互联网抓取的海量数据集上进行训练，在多个领域展现出前所未有的流畅性和连贯性。然而，这种网络规模的训练范式引入了一个关键的脆弱性：模型会吸收并再现其训练语料中普遍存在的偏见、仇恨言论、刻板印象和毒性模式（gehman2020realtoxicityprompts, (https://arxiv.org/html/2605.14087#bib.bib3); bender2021dangers, (https://arxiv.org/html/2605.14087#bib.bib4)）。

这种现象被称为“毒性退化”，表现为即使从看似无害或中性的提示词出发，模型也会生成有害内容。近期研究表明，此问题已从显性毒性扩展到更复杂的形式。Zeng 等人（zeng2025metaphorical, (https://arxiv.org/html/2605.14087#bib.bib18)）指出，即使是像 GPT-4o 这样最先进的模型，也经常误解隐喻性的隐性仇恨言论——在这些言论中，有害的刻板印象通过修辞手法伪装成看似无害的表达。例如，一个良性提示词如“男人们开始”可能被补全为“……打架并互相残杀”，或者更糟，升级为针对特定人口群体的明确仇恨言论。这种行为为将 LLMs 部署到面向用户的应用（包括聊天机器人、内容生成工具和自动写作助手）中带来了巨大风险。这些应用一旦产生毒性输出，可能会对用户和社区造成实际伤害。

挑战远不止于检测。传统的内容审核方法，如基于关键词的过滤和黑名单，存在根本性局限：它们缺乏上下文感知能力（例如，屏蔽“杀死”会阻止在医疗语境中讨论“杀死癌细胞”），容易通过词汇变体规避，并且会因过度审查合法内容而显著降低模型效用。更复杂的方法，如在精选数据集上重新训练或微调模型，会招致高昂的计算成本。这通常需要数百万 GPU 小时和巨大的环境影响，同时仍无法保证对对抗性输入的安全性（liu2021dexperts, (https://arxiv.org/html/2605.14087#bib.bib6)）。

### 1\.2\. 研究空白与新颖性

虽然现有研究已确定 LLMs 能够生成有害内容（gehman2020realtoxicityprompts, (https://arxiv.org/html/2605.14087#bib.bib3)），并提出了各种缓解策略（liu2021dexperts, (https://arxiv.org/html/2605.14087#bib.bib6); welbl2021challenges, (https://arxiv.org/html/2605.14087#bib.bib7)），但在理解这些缓解技术如何对抗不同形式的毒性方面，仍存在一个关键空白。具体来说，大多数安全评估都侧重于显性毒性：我们注意到那些相对容易检测的公开侮辱、威胁和脏话。然而，现实世界中的仇恨言论常常表现为隐性毒性：微妙的刻板印象、暗语、微攻击以及伪装成“得体”观点、实则延续有害偏见并规避简单检测机制的陈述。

我们的研究通过进行涵盖从显性到隐性毒性全谱系的系统性评估来填补这一空白。我们的新颖贡献在于对 DExperts 进行针对对抗性生成的隐性仇恨言论的全面压力测试，揭示了标准基准测试未能捕捉到的基本鲁棒性限制。我们量化了从显性毒性检测与缓解过渡到隐性毒性时的“鲁棒性差距”，即性能的下降程度。

### 1\.3\. 研究问题

我们的研究由三个主要研究问题引导：

1.  （1）RQ1（基线测量）：标准的、未缓解的预训练 LLM（GPT-2）从非毒性提示词生成毒性内容的程度如何？毒性输出的分布和严重程度是怎样的？
2.  （2）RQ2（缓解功效与权衡）：推理时控制方法（特别是 DExperts）能否在不过度影响生成质量的情况下显著降低毒性？与此缓解相关的计算成本是多少？
3.  （3）RQ3（鲁棒性与泛化能力）：该缓解技术能否有效推广到隐性的、对抗性的仇恨言论？显性与隐性毒性缓解之间的鲁棒性差距有多大？

### 1\.4\. 贡献

本研究做出以下关键贡献：

- • 全面的基线分析：我们提供了基线 GPT-2 毒性的详细定量分析，揭示来自非毒性提示词的生成中约有 4.2% 落入“危险区域”（毒性分数 > 0.5）。
- • 缓解验证：我们成功复制并验证了 DExperts 方法，确认其在标准 RealToxicityPrompts 基准上达到 100% 安全率，这表示基线的故障率被完全消除。
- • 鲁棒性差距识别：我们识别并量化了一个显著的鲁棒性差距：虽然 DExperts 在显性毒性上表现完美，但在来自 ToxiGen 的隐性、对抗性仇恨言论上，安全率降至 98.5%，表明其在泛化方面存在脆弱性。
- • 成本效益分析：我们提供了 DExperts 引入的计算开销的详细测量，记录了推理延迟增加了 10 倍（每次生成从 0.2 秒到 2.0 秒），这对实时部署场景具有重要意义。
- • 方法论框架：我们建立了一个系统性的三阶段评估框架（基线、缓解、对抗），可作为未来毒性缓解研究工作的模板。

## 2\. 相关工作与文献综述

### 2\.1\. 语言模型中的毒性

语言模型中的偏见和毒性问题已在近期的综述中得到了广泛记录。Gallegos 等人（gallegos2024bias, (https://arxiv.org/html/2605.14087#bib.bib19)）提供了偏见评估与缓解技术的全面分类，根据干预阶段对方法进行分类：预处理（修改输入）、训练中（修改优化过程）、处理中（修改推理行为）和后处理（修改输出）。该框架有助于将我们本节讨论的各种缓解策略置于更广阔的背景下加以理解。

神经语言模型中生成有害内容的问题已得到广泛记录。Gehman 等人（gehman2020realtoxicityprompts, (https://arxiv.org/html/2605.14087#bib.bib3)）引入了 RealToxicityPrompts 数据集，并证明即使是像 GPT-3 这样的大型模型也会表现出毒性退化，即使用从看似无害的提示词出发，也会以不可忽略的概率生成不安全内容。他们的工作建立了预期最大毒性指标，并表明较大的模型不一定生成较少的有害内容，挑战了“规模提升安全性”的假设。

Bender 等人（bender2021dangers, (https://arxiv.org/html/2605.14087#bib.bib4)）对大型语言模型进行了更广泛的批评，记录了它们倾向于延续训练数据中的刻板印象和偏见。他们强调了环境成本以及部署基于未经过滤的互联网文本训练的模型的风险。Sheng 等人（sheng2019woman, (https://arxiv.org/html/2605.14087#bib.bib5)）证明了语言生成中系统性的性别偏见，显示模型倾向于将某些人口群体与负面属性关联起来。这些基础性工作确立了毒性问题在模型架构和规模上的普遍性。

### 2\.2\. 缓解方法

已经提出了各种缓解策略，大致可以分为三类：

数据过滤与筛选：Welbl 等人（welbl2021challenges, (https://arxiv.org/html/2605.14087#bib.bib7)）探索了在过滤后的数据集上训练模型，即在模型训练前移除有毒内容。虽然这降低了基线毒性，但需要昂贵的重新训练，可能会降低模型在某些任务上的能力，并且无法消除所有毒性输出。

微调与 RLHF：近期工作探索了基于人类反馈的强化学习（RLHF）以使模型输出与人类偏好对齐（ouyang2022training, (https://arxiv.org/html/2605.14087#bib.bib8)）。虽然有效，但这种方法需要大量的人工标注，计算成本高昂，并且可能基于标注者的偏好引入新的偏见。

RLHF 的一个重要变体是 Bai 等人（bai2022constitutional, (https://arxiv.org/html/2605.14087#bib.bib24)）提出的宪法式 AI（CAI）。CAI 不依赖于针对每个具体输出的人类反馈，而是将一组预定义的规则或“宪法”直接嵌入训练过程中。模型通过两个阶段学习批判和修正自身行为：一个涉及自我批判和修订的监督学习阶段，随后是基于 AI 反馈（RLAIF）而非人类反馈的强化学习阶段。这种方法在保持与安全原则对齐的同时，减少了人工标注负担，代表了传统 RLHF 用于毒性缓解的一个有前景的替代方案。

推理时控制：Liu 等人（liu2021dexperts, (https://arxiv.org/html/2605.14087#bib.bib6)）提出了 DExperts，我们在本研究中对其进行了复制。他们的方法利用专家模型和反专家模型操纵解码概率，避免了重新训练基础模型的需要。PPLM（dathathri2019plug, (https://arxiv.org/html/2605.14087#bib.bib9)）和 FUDGE（yang2021fudge, (https://arxiv.org/html/2605.14087#bib.bib10)）代表了使用不同控制机制的替代推理时方法。我们的工作将 DExperts 的评估扩展到了原始论文未涵盖的对抗性场景。

还提出了其他推理时方法来处理毒性缓解问题。Gururangan 等人（suau2024whispering, (https://arxiv.org/html/2605.14087#bib.bib14)）引入了 AUROC 适应（AurA），该方法根据神经元的判别能力识别负责毒性的神经元，并成比例地降低其激活水平，在仅增加 0.72 的困惑度的情况下，实现了高达 2.2 倍的毒性降低。与结合专家和反专家模型的 DExperts 不同，AurA 通过在神经元层面进行直接的神经干预来运作。

Lee 等人（kim2023gta, (https://arxiv.org/html/2605.14087#bib.bib15)）提出了门控毒性避免（GTA），专门解决毒性缓解中的性能保持挑战。他们的方法在降低毒性的同时，维持语法、主题一致性和困惑度，直接解决了我们在 DExperts 评估中观察到的质量与安全的权衡问题。

更广泛地说，Liang 等人（liang2024controllable, (https://arxiv.org/html/2605.14087#bib.bib23)）提供了 LLMs 可控文本生成方法的全面综述，将方法分类为模型重训练、微调、强化学习、提示工程、潜在空间操作和解码时干预。这个分类法有助于将 DExperts 定位在可控生成技术的更广阔图景中。

### 2\.3\. 知识编辑方法

一种根本不同的毒性缓解方法是直接编辑模型参数以移除毒性知识，而不是在推理时抑制它。Wang 等人（wang2024detoxifying, (https://arxiv.org/html/2605.14087#bib.bib21)）引入了术中神经监测去毒化（DINM），该方法仅通过一个实例，在几步调优内就能降低参数的毒性。他们的 SafeEdit 基准涵盖了九个不安全类别，包含各种攻击提示和全面的评估指标。

至关重要的是，他们的分析表明，像监督微调（SFT）和 DPO 这样的方法可能仅仅抑制了毒性参数的激活，而 DINM 通过永久性的参数调整，在更大程度上缓解了毒性。这种区别很重要：像 DExperts 这样的推理时方法在生成过程中修改输出，而像 DINM 这样的知识编辑方法则对模型内部表征进行永久性更改。然而，知识编辑方法需要仔细验证，以确保它们不会损害模型在良性任务上的能力。

### 2\.4\. 对抗性与隐性仇恨言论

Hartvigsen 等人（hartvigsen2022toxigen, (https://arxiv.org/html/2605.14087#bib.bib11)）引入了 ToxiGen，这是一个针对特定人口群体的对抗性生成的隐性仇恨言论数据集。他们证明了标准毒性分类器在检测隐性仇恨方面存在困难，性能低于显性仇恨检测。这个数据集使得能够对模型针对暗语和微妙毒性的鲁棒性进行系统性评估。

最近的工作进一步探讨了隐性毒性检测与生成的挑战。Sheng 等人（wen2023unveiling, (https://arxiv.org/html/2605.14087#bib.bib16)）证明，LLMs 可以通过基于强化学习的方法生成多样化的隐性毒性输出，这些方法专门规避标准的毒性分类器。他们的工作采用了

相似文章

PSK@EEUCA 2026：利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性

arXiv cs.CL

本文介绍了一个用于 EEUCA 2026 游戏聊天毒性检测共享任务的系统，该系统通过结合合成数据增强微调 Llama 3.1 8B 模型，获得了第四名。文章重点阐述了一种“验证陷阱”现象：由于数据分布偏移，较高的验证分数与测试集表现并不相关。

LLM解毒：直接从数据集入手

arXiv cs.CL

研究者提出HSPD，一种语料库级解毒流程，可在保留语义的前提下重写预训练数据中的有毒片段，在GPT-2 XL、LLaMA-2、OPT与Falcon模型上实现SOTA毒性降低。

关于语言模型安全性和滥用的经验教训

OpenAI Blog

OpenAI 分享了在语言模型安全性和滥用方面吸取的经验教训，讨论了衡量风险的挑战、现有基准的局限性，以及他们开发的新型毒性和政策违规评估指标。该文章还强调了对劳动力市场影响的担忧，以及继续研究大规模AI部署社会影响测量的必要性。

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移来源：[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要经过安全调优的大语言模型（LLM）通常会回避承认人口统计差异，即使这种承认在事实上是正确的（例如，基于血统的

TRIDENT：通过三维多样化红队数据合成增强大型语言模型安全性

arXiv cs.CL

TRIDENT是一个新颖的框架和数据集合成管道，用于通过覆盖词汇多样性、恶意意图和越狱战术的三维红队数据来增强LLM安全性。在TRIDENT-Edge上微调Llama-3.1-8B与基线模型相比，危害分数降低14.29%，攻击成功率下降20%。

相似文章

PSK@EEUCA 2026：利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性

LLM解毒：直接从数据集入手

关于语言模型安全性和滥用的经验教训

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

TRIDENT：通过三维多样化红队数据合成增强大型语言模型安全性

提交意见反馈