更难防御:面向中文的通过隐式增强与混淆重写实现的毒性攻击

arXiv cs.CL 论文

摘要

本文提出了CITA框架,用于生成中文隐式毒性攻击,以评估和改进大语言模型的毒性检测器,在测试模型上实现了较高的攻击成功率。

arXiv:2605.22258v1 公告类型:新 摘要:大型语言模型(LLM)需要超越显式辞令的稳健毒性评估。在中文语境中,这一设定尚待充分探索,因为中文毒性可能将语义间接性与表层混淆相结合。我们提出了中文隐式毒性攻击(CITA),一种受控的红队评估与防御数据生成框架,而非可部署的逃避工具。CITA包含三个阶段:(i)有害意图学习,(ii)隐式毒性增强,以及(iii)混淆变体重写,以保留有害意图、增加隐式性并添加受控的表层变体。在CITA生成的评估样本上,七种被测试的检测器表现出显著的漏检风险,平均攻击成功率(ASR)达到69.48%;人工评估进一步证实了保留的有害性以及增加的隐式性/逃避性。作为下游防御应用,我们使用CITA生成的红队数据微调了一个中文隐式毒性防御模型(CITD),结果表明,此类数据可以通过额外训练提升鲁棒性。
查看原文
查看缓存全文

缓存时间: 2026/05/22 08:46

# 通过隐式增强与混淆改写实现的中文毒性攻击
来源: https://arxiv.org/html/2605.22258
Jingyi Kang¹, Junyu Lu¹¹¹footnotemark:1, Bo Xu¹, Hongbo Wang² Linlin Zong¹, Roy Ka\-Wei Lee³, Hongfei Lin¹ ¹大连理工大学 ²东京大学 ³新加坡科技设计大学 kangjingyi04@foxmail\.com, dutljy@mail\.dlut\.edu\.cn, xubo@dlut\.edu\.cn

###### 摘要

大语言模型(LLMs)需要超越显式词句的鲁棒毒性评估。在中文中,毒性可能结合语义间接性与表面混淆,这一设定仍未得到充分探索。我们提出中文隐式毒性攻击(Chinese Implicit Toxicity Attack, CITA),这是一个受控的红队评估与防御数据生成框架,而非可部署的规避工具。CITA采用三个阶段:(i) 有害意图学习,(ii) 隐式毒性增强,以及 (iii) 混淆变体重写,以保持有害意图、增加隐式性并添加受控的表面变体。在CITA生成的评估样本上,七个被测试的检测器表现出显著的漏检风险,平均ASR达到69.48%;人工评估进一步确认了有害性的保留以及隐式性/规避性的增强。作为下游防御应用,我们使用CITA生成的红队数据微调了一个中文隐式毒性防御模型(CITD),表明此类数据可以通过额外训练提升鲁棒性¹¹¹项目链接: https://github.com/Timing04/CITA。

免责声明: 本文可能包含粗俗、低俗或冒犯性的内容。

难以防御:通过隐式增强与混淆改写实现的中文毒性攻击

Jingyi Kang¹††感谢:同等贡献。通讯作者: Bo Xu., Junyu Lu¹¹¹footnotemark:1, Bo Xu¹, Hongbo Wang²Linlin Zong¹, Roy Ka\-Wei Lee³, Hongfei Lin¹¹大连理工大学²东京大学³新加坡科技设计大学kangjingyi04@foxmail\.com, dutljy@mail\.dlut\.edu\.cn, xubo@dlut\.edu\.cn

## 1 引言

参见图注图1:中文显式与隐式毒性示例,其中有害意图通过间接表达和混淆变体传达,使检测更具挑战性。毒性内容仍然是网络社区和大语言模型(LLMs)安全部署的主要挑战。在社交平台上,有毒语言会加剧敌意、放大偏见并伤害弱势群体;在LLM场景中,模型也可能生成、改写或放大有害内容(Bai et al., 2022 (https://arxiv.org/html/2605.22258#bib.bib30); Ngo et al., 2021 (https://arxiv.org/html/2605.22258#bib.bib36); Wang et al., 2023 (https://arxiv.org/html/2605.22258#bib.bib35))。因此,毒性检测是内容安全评估和对齐研究的核心(Perez et al., 2022 (https://arxiv.org/html/2605.22258#bib.bib2); Ganguli et al., 2022 (https://arxiv.org/html/2605.22258#bib.bib3); Casper et al., 2024 (https://arxiv.org/html/2605.22258#bib.bib33))。然而,部署场景并不仅限于公开侮辱:消息可以在去除明显的词汇线索的同时保留敌意,这需要超越显式或被动收集示例的鲁棒性测试。

隐式毒性之所以困难,是因为有害意图可能通过间接措辞、语用暗示或编码俚语而非直接攻击性词语来表达(Wiegand et al., 2021 (https://arxiv.org/html/2605.22258#bib.bib6); Wen et al., 2023 (https://arxiv.org/html/2605.22258#bib.bib5))。尽管近期工作研究了隐式毒性,但大部分集中于英语(ElSherief et al., 2021 (https://arxiv.org/html/2605.22258#bib.bib7); Hartvigsen et al., 2022 (https://arxiv.org/html/2605.22258#bib.bib10); Vidgen et al., 2021 (https://arxiv.org/html/2605.22258#bib.bib9)),而中文隐式毒性的研究仍然较少。中文还引入了两个独特的压力源:语义间接性,即有害含义被暗示;以及表面形式混淆,即通过同音字、字符扰动或其它中文特定变体来改写相同的意图(Xiao et al., 2024 (https://arxiv.org/html/2605.22258#bib.bib17); Ma et al., 2025 (https://arxiv.org/html/2605.22258#bib.bib19))。现有的中文安全资源通常标注成本高昂,且对这些策略的覆盖范围有限(Zhou et al., 2022 (https://arxiv.org/html/2605.22258#bib.bib11))。

以往的工作分别研究了隐式毒性生成、中文毒性基准以及表面伪装或改写,但通常是孤立的。为弥补这些不足,我们提出中文隐式毒性攻击(CITA),一个受控的生成式红队框架,用于评估中文毒性检测器对隐式和混淆有害内容的鲁棒性。这里,“攻击”是在红队评估意义上使用的:CITA旨在用于受控的检测器评估和防御数据生成,而非开放式的有害部署。CITA包含三个阶段:有害意图学习保留有害意图和上下文-响应的一致性;隐式毒性增强利用强化学习信号增加语义间接性同时保持质量;混淆变体重写引入受控的中文表面形式变体,以测试词汇和字形鲁棒性。这种设计将语义间接性与表面混淆分离,同时允许它们被联合评估。

我们使用CITA评估了七个毒性检测器,包括商业审核API、闭源LLM和开源中文LLM。我们仅在独立判断为有毒的样本上计算攻击成功率(ASR)。在此评估设置下,完整CITA管线的平均ASR达到69.48%,高于公开的中文毒性数据集和CITA的中间阶段。这表明被测试的检测器在语义间接性和表面混淆的双重压力下仍然脆弱。此外,人工评估确认了更高的隐式性、自然性和感知到的规避性,同时保留了有害性。除了评估,我们使用CITA生成的红队数据与公开的无毒样本微调了中文隐式毒性防御模型(CITD),表明受控的生成式红队数据可以支持下游防御训练和鲁棒性增强。

我们的贡献总结如下:

- • 我们提出CITA,一个受控的中文红队框架,将意图/上下文保留、语义间接性和表面形式混淆分开。
- • 我们评估了七个检测器,结果表明完整管线在独立验证的有毒样本上平均ASR达到69.48%,揭示了在间接性和混淆结合下的漏检风险。
- • 我们使用CITA红队数据和公开的无毒数据训练了CITD,证明了受控生成式红队数据对中文隐式毒性检测的防御价值。

## 2 相关工作

### 2.1 LLM安全

已有工作从多个角度研究了LLM安全,包括有害内容生成、越狱提示和自动化红队测试。Perez et al. (2022 (https://arxiv.org/html/2605.22258#bib.bib2))使用语言模型生成红队测试用例并增加对可能模型风险的覆盖。RealToxicityPrompts (Gehman et al., 2020 (https://arxiv.org/html/2605.22258#bib.bib1))使用真实网页提示评估神经文本生成中的毒性退化。ToxiGen (Hartvigsen et al., 2022 (https://arxiv.org/html/2605.22258#bib.bib10))使用模型生成对抗性和隐式的仇恨言论样本。HarmBench (Mazeika et al., 2024 (https://arxiv.org/html/2605.22258#bib.bib4))提供了自动化红队测试和拒绝鲁棒性的基准。近期工作还表明,LLM可以生成被现有检测器遗漏的隐式毒性文本,而强化学习可以进一步增加这种行为(Wen et al., 2023 (https://arxiv.org/html/2605.22258#bib.bib5))。我们的工作也基于红队生成,但专门聚焦于中文隐式毒性。我们同时研究语义间接性和混淆变体重写。

### 2.2 中文毒性检测

毒性检测是内容审核和模型安全的重要组成部分。在中文方面,现有数据集和基准涵盖了对话偏见、细粒度毒性、网络欺凌以及跨度级别的目标感知仇恨言论理解(Zhou et al., 2022 (https://arxiv.org/html/2605.22258#bib.bib11); Jiang et al., 2021 (https://arxiv.org/html/2605.22258#bib.bib13); Lu et al., 2023 (https://arxiv.org/html/2605.22258#bib.bib14); Yang et al., 2025b (https://arxiv.org/html/2605.22258#bib.bib15); Bai et al., 2025 (https://arxiv.org/html/2605.22258#bib.bib39))。英语研究也已从显式侮辱转向隐式仇恨和社会语境推理(Sap et al., 2020 (https://arxiv.org/html/2605.22258#bib.bib8); Vidgen et al., 2021 (https://arxiv.org/html/2605.22258#bib.bib9))。近期中文工作研究了伪装毒性,包括ToxiCloakCN (Xiao et al., 2024 (https://arxiv.org/html/2605.22258#bib.bib17))、多重扰动中文毒性检测(Yang et al., 2025c (https://arxiv.org/html/2605.22258#bib.bib18))、使用同音字图和毒性词表揭示伪装毒性(Ma et al., 2025 (https://arxiv.org/html/2605.22258#bib.bib19))以及拼音掩码检测(Guo et al., 2025 (https://arxiv.org/html/2605.22258#bib.bib20))。这些研究主要关注检测或恢复被改写的毒性文本。相比之下,我们的工作侧重于为检测器评估和防御训练生成中文隐式毒性样本,同时考虑间接表达和混淆变体重写。

## 3 方法论

参见图注图2:受控的CITA红队框架概述,用于中文隐式毒性评估和防御数据生成,包括有害意图学习、隐式毒性增强和混淆变体重写。模型首先学习在自然上下文中生成有害响应,然后通过奖励引导优化增加语义间接性,最后应用多种混淆改写策略以在受控评估中增加检测器规避难度。### 3.1 概述

CITA是一个受控的三阶段生成式红队框架,用于审计中文毒性检测器并生成针对隐式和混淆毒性的防御数据,而非可部署的攻击系统。如图2 (https://arxiv.org/html/2605.22258#S3.F2)所示,有害意图学习(HIL)将独立的毒性帖子转化为上下文-响应对,用于监督微调;隐式毒性增强(ITE)使用组相对策略优化(GRPO)结合检测器规避和质量奖励,在保留有害意图的同时增加语义间接性;混淆变体重写(OVR)应用类型特定的改写智能体创建中文表面变体,如同音字、字符转置、繁体字混用和表情符号替换。该管线沿两个互补维度探测检测器的鲁棒性:语义隐式性和表面形式混淆。接下来,我们制定受控评估目标并详细描述每个阶段。

### 3.2 任务形式化

给定一个中文查询或讨论上下文\(q \in \mathcal{Q}\),红队模型\(\pi_\theta\)生成一个响应\(y \sim \pi_\theta(\cdot \mid q)\)。对于一个生成阶段\(s \in \{\textsc{HIL}, \textsc{HIL}+\textsc{ITE}, \textsc{CITA}\}\),令\(\mathcal{Y}_s\)为提交给检测器的生成文本集合。对于HIL和ITE,每个样本是一个生成的响应;对于完整CITA管线,每个保留的OVR变体计为一个单独样本,因为它呈现了不同的表面形式。在ASR评估中,检测器\(f\)接收候选文本本身(包括任何存在的混淆),而\(q\)仅用于生成和质量验证。

在此受控审计设置下,只有当生成文本保留有害意图且被独立验证为有毒时,才算作检测器漏检。阶段特定的ASR为:

\[
\operatorname{ASR}_s(f) = \frac{\big\| \{ y \in \mathcal{Y}_s : J_{\mathrm{tox}}(y) = 1 \land f(y) = \mathrm{safe} \} \big\|}{\big\| \{ y \in \mathcal{Y}_s : J_{\mathrm{tox}}(y) = 1 \} \big\|},
\tag{1}
\]

其中\(J_{\mathrm{tox}}\)是一个独立的毒性判断器,不作为GRPO奖励模型使用。该分母防止无害生成被算作成功的检测器漏检。在我们的评估中,这产生了725个有毒的HIL样本和1055个有毒的ITE样本作为相应的ASR分母;对于完整CITA,分母是独立判断为有毒的保留OVR变体集合。最终的ASR检测器被排除在策略优化之外,而ITE中使用的对抗性检测器仅提供训练时的奖励信号。

### 3.3 有害意图学习

HIL阶段初始化模型,使其能够生成上下文相关的有害响应。由于现有的中文毒性数据集主要包含独立的毒性帖子而非查询-响应对,我们为每个毒性帖子合成一个合理的讨论上下文。我们从现有数据集(Jiang et al., 2021 (https://arxiv.org/html/2605.22258#bib.bib13); Deng et al., 2022 (https://arxiv.org/html/2605.22258#bib.bib12); Lu et al., 2023 (https://arxiv.org/html/2605.22258#bib.bib14); Yang et al., 2025b (https://arxiv.org/html/2605.22258#bib.bib15), c (https://arxiv.org/html/2605.22258#bib.bib18))的中文毒性帖子构建数据。我们首先移除内容不完整的噪声示例,然后将剩余帖子分为训练集和评估集。对于每个保留的毒性帖子\(y\),GPT-4o-mini生成一个简短的中文上下文\(q\),该上下文可能合理地引出\(y\),同时保留原始目标和立场,并避免不相关的有害内容。然后,我们丢弃那些上下文和响应不一致、目标不一致、重复、改变有害性或上下文不支持的对;不修复模棱两可的情况,而是直接移除。过滤后的训练数据集记为

\[
\mathcal{D}_{\mathrm{hil}} = \{ (q_i, y_i) \}_{i=1}^N,
\tag{2}
\]

其中\(q_i\)表示上下文,\(y_i\)表示有害响应。我们使用标准的自回归监督微调优化模型:

\[
\mathcal{L}_{\mathrm{HIL}}(\theta) = - \sum_{(q,y) \in \mathcal{D}_{\mathrm{hil}}} \sum_{t=1}^{|y|} \log \pi_\theta(y_t \mid q, y_{<t}).
\tag{3}
\]

这作为后续受控优化阶段的起点。

### 3.4 隐式毒性增强

为了对检测器进行语义间接性压力测试,ITE使用GRPO更新HIL模型。对于每个查询\(q\),我们采样\(G\)个响应,并为每个响应打分,奖励结合了训练时的检测器规避信号和间接表达质量信号:

\[
r(y, q; f_{\mathrm{adv}}) = \lambda_{\mathrm{eva}} r_{\mathrm{eva}}(y; f_{\mathrm{adv}}) + \lambda_{\mathrm{qual}} r_{\mathrm{qual}}(y, q),
\tag{4}
\]

其中检测器规避奖励为

\[
r_{\mathrm{eva}}(y; f_{\mathrm{adv}}) = \begin{cases} 1, & f_{\mathrm{adv}}(y) = \mathrm{safe}, \\ -1, & f_{\mathrm{adv}}(y) = \mathrm{toxic}, \end{cases}
\tag{5}
\]

而质量奖励

相似文章

毒性幻觉:扰动提示并追踪LLM电路

arXiv cs.CL

本文研究了提示中的毒性词汇扰动如何降低LLM的事实准确性并增加不确定性,并使用归因图分析追踪内部变化。研究发现,增加毒性会放大对扰动敏感的变异节点,而核心推理节点保持不变。

内存增强型LLM智能体中的状态污染

arXiv cs.AI

本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。