Chainwash:扩散语言模型水印的多步重写攻击

arXiv cs.CL 论文

摘要

本研究论文介绍了Chainwash,一种多步重写攻击,能够有效删除扩散语言模型(LLaDA-8B-Instruct)输出中的统计水印,经过五次链式重写后,检测率从87.9%降至4.86%。

arXiv:2605.05503v1 公告类型:新 摘要:统计水印是验证文本是否由语言模型生成的常用方法。大多数现有方案假设自回归生成,即令牌从左到右生成,上下文哈希定义明确。扩散语言模型通过任意顺序去噪令牌来生成文本,因此这些方案无法直接应用。最近Gloaguen等人的水印方案针对LLaDA 8B Instruct填补了这一空白,并报告真阳性检测率超过99%。本文研究水印文本被重写一次而不是多次时会发生什么。使用相同的水印配置,在五个WaterBench领域生成了1,605个约300个令牌的水印完成文本。每个完成文本由四个开源权重语言模型(参数从1.5B到8B)重写,这些模型均不知道水印密钥。测试了五种重写风格:释义、人性化、简化、学术和摘要扩展。每种风格最多链式跳转五次,总共产生160,500个重写文本。在标准显著性阈值下,原始输出中87.9%检测到水印。单次重写后,检测率降至14%到41%之间,具体取决于重写器和风格。五次链式重写后,检测率降至4.86%,意味着94.76%原本检测到的文本不再被标记。三次重写后,检测器评分已从水印基线向零分布下降了86%。因此,重复重写比单次重写攻击性更强,且该结果在测试的所有四个重写器上均成立。
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:27

# Chainwash: 对扩散语言模型水印的多步重写攻击
来源: https://arxiv.org/html/2605.05503
Mohd Ruhul Ameen¹ Akif Islam² Nadim Mahmud³ Md\. Ekramul Hamid²  
¹马歇尔大学工程与计算机科学学院,亨廷顿,WV,美国  
²拉杰沙希大学计算机科学与工程系,拉杰沙希,孟加拉国  
³迈阿密大学,牛津,OH 45056,美国  
ameen@marshall\.edu  
s1910776135@ru\.ac\.bd  
mahmudm2@miamioh\.edu  
ekram\_hamid@ru\.ac\.bd  

###### 摘要

统计水印是验证文本是否由语言模型生成的主要方法。现有方案大多假设自回归生成,即从左到右逐 token 生成 token,且上下文哈希定义明确。扩散语言模型(DLM)通过以任意顺序去噪 token 来生成文本,因此这些方案无法直接应用。Gloaguen 等人(ICLR 2026)最近提出的一种水印方法,基于红-绿对数几率偏置框架,解决了这一差距,并在 LLaDA-8B-Instruct 输出上报告了超过 99% 的真阳性检测率。相关的鲁棒性研究评估了该水印在改写和反向翻译文本上的表现,发现可检测性下降,并表明当文本足够长时信号可以恢复。本文研究了水印文本被多次而非单次重写时会发生什么。使用相同的 LLaDA-8B-Instruct 水印配置,在五个 WaterBench 领域中生成了 1,605 个约 300 个 token 的水印补全文本。每个补全文本随后由四个开放权重的语言模型(参数从 1.5B 到 8B 不等)重写,这些模型均不知道水印密钥。测试了五种重写风格:改写、人性化、简化、学术化和总结-扩展。每个重写器独立运行,每种风格最多链式进行五步(hop),共生成 160,500 个重写文本。报告的指标包括:检测率、对原始检测文本的链式清洗成功率、检测器信号的下降幅度,以及一个将信号损失与语义保留进行比较的清洗效率分数。在标准显著性阈值下,原 1,605 个输出中有 87.9% 检测到水印。单次重写后,检测率降至 14% 至 41% 之间,具体取决于重写器和风格。经过五次链式重写后,检测率降至 4.86%,意味着 94.76% 的原始检测文本不再被标记。三次重写后,检测器分数已从其水印基线向零分布下降了 86%。因此,多次重写是一种远比单次重写更强的攻击,且该结果在测试的所有四个重写器中均成立。

## 1 引言

随着语言模型被广泛用于写作、摘要、代码和内容生成,了解文本来源变得越来越重要(Tang 等,2024 (https://arxiv.org/html/2605.05503#bib.bib23);Wu 等,2025 (https://arxiv.org/html/2605.05503#bib.bib26))。一种提出的解决方案是统计水印:在生成过程中,模型以秘密的、密钥相关的方式略微改变其 token 选择,从而使检测器能够随后测试该文本是否可能由该模型生成。早期且广泛研究的大部分文本水印是为自回归语言模型设计的,其中 token 从左到右逐个生成(Kirchenbauer 等,2023 (https://arxiv.org/html/2605.05503#bib.bib6);Aaronson 和 Kirchner,2022 (https://arxiv.org/html/2605.05503#bib.bib1);Kuditipudi 等,2024 (https://arxiv.org/html/2605.05503#bib.bib9);Dathathri 等,2024 (https://arxiv.org/html/2605.05503#bib.bib4))。在这种设置中,水印可以使用先前生成的 token 作为上下文,来决定哪些后续 token 应该携带隐藏信号。

扩散语言模型(DLM)打破了这一假设。DLM 并非严格从左到右生成文本,而是从包含掩码位置的序列开始,并通过填充 token 逐步去噪,有时以任意顺序进行(Austin 等,2021 (https://arxiv.org/html/2605.05503#bib.bib2);Lou 等,2024 (https://arxiv.org/html/2605.05503#bib.bib10);Nie 等,2025 (https://arxiv.org/html/2605.05503#bib.bib12))。当生成一个 token 时,自回归水印通常依赖的“先前”上下文可能仍被掩码,因此自回归水印无法直接迁移到 DLM。最近的工作通过针对扩散设置设计的水印弥补了这一差距。Gloaguen 等人(2026 (https://arxiv.org/html/2605.05503#bib.bib5))提出了一种针对 LLaDA 风格生成、专为 DLM 定制的红-绿水印,该水印在可能上下文上以期望方式应用水印,并偏向那些有助于未来 token 变为绿色的 token。检测器保持接近熟悉的红-绿二项检验,生成时的水印被调整为适应任意顺序去噪,并在新鲜 DLM 输出上报告真阳性检测率超过 99%。同一研究还评估了在自然修改(如改述和反向翻译)下的鲁棒性,发现可检测性下降,但当生成的序列足够长时可以部分恢复。

本文研究了一种补充但更持久的攻击场景。在实践中,希望移除水印的用户很少手动编辑文本或仅重写一次。相反,他们可以将水印文本传递给另一个指令微调的语言模型,并请求进行改述、人性化版本、简化版本、更正式版本或总结并扩展的处理。重写模型不需要知道水印密钥、原始 DLM 或检测器。我们将此设置称为*模型介导的重写*。核心问题是:在由外部 LLM 反复重写且文本含义大致保留的情况下,DLM 水印能否幸存。

为了回答这个问题,我们评估了 Gloaguen 等人(2026 (https://arxiv.org/html/2605.05503#bib.bib5))的 DLM 红-绿水印在多步重写攻击下的表现。我们在五个 WaterBench 领域(Tu 等,2024 (https://arxiv.org/html/2605.05503#bib.bib16))中使用 LLaDA-8B-Instruct 生成了 1,605 个水印补全文本。每个补全文本随后由四个开放权重的指令微调重写模型(参数从 1.5B 到 8B 不等)在五种重写风格下进行重写:改述、人性化、简化、学术风格转换和总结-扩展。每种风格最多链式进行五步,共生成 160,500 个重写文本。该设置使我们不仅能测量一次重写是否削弱水印,还能测量当同一文本被反复重写时,水印可检测性如何变化。

我们沿着五个维度评估攻击效果:重写后的水印检测率、*链式清洗*率(最初检测到的文本变得无法检测的比例)、检测器连续信号的下降幅度、原始与重写文本之间的语义保留程度,以及一个将水印信号损失与语义变化相关联的水印移除效率分数。在所有四个重写器和五种重写风格中,反复重写显著降低了可检测性,同时语义内容大部分得到保留。没有一个重写器可以访问水印密钥、水印生成器或检测器。因此,这一结果并非由特权攻击者驱动,而是由普通用户已经广泛可用的基于模型的重写所驱动。

本研究旨在扩展、而非取代现有的 DLM 水印评估。直接检测新鲜输出以及针对单次重写的鲁棒性仍然是有用的初步测试。然而,我们的发现表明,这些测试本身无法刻画文本被外部 LLM 多次重写后水印的行为。因此,我们提议将迭代的、多模型的重写纳入未来 DLM 水印评估的标准压力测试。

## 2 相关工作

语言模型的统计水印最初主要基于自回归设置开发,其中文本从左到右生成。Kirchenbauer 等人(2023 (https://arxiv.org/html/2605.05503#bib.bib6))的红-绿水印使用上下文的密钥相关哈希将词汇表划分为绿色和红色 token,在生成期间给绿色 token 一个小的对数几率提升,并通过比较绿色 token 数量与无水平生成下的期望数量来检测水印。其他自回归水印方法以不同权衡探索了相关想法。Aaronson 和 Kirchner(2022 (https://arxiv.org/html/2605.05503#bib.bib1))的 Gumbel-max 方案以及 Kuditipudi 等人(2024 (https://arxiv.org/html/2605.05503#bib.bib9))的无失真构造旨在更小心地保持模型分布,而 SynthID-Text(Dathathri 等,2024 (https://arxiv.org/html/2605.05503#bib.bib4))通过锦标赛采样使水印适应大规模部署。

并行的工作研究了这些水印在文本被修改后的鲁棒性。自回归水印可能会因改述、翻译和其他文本转换而减弱,尽管攻击的严重程度取决于水印、检测器阈值和文本长度(Kirchenbauer 等,2024 (https://arxiv.org/html/2605.05503#bib.bib7);Zhao 等,2024 (https://arxiv.org/html/2605.05503#bib.bib17);Sadasivan 等,2023 (https://arxiv.org/html/2605.05503#bib.bib15))。更强的重写攻击,包括递归改述和学习到的改述模型,进一步表明表面级水印信号可以被稀释,同时大部分含义得以保留(Krishna 等,2023 (https://arxiv.org/html/2605.05503#bib.bib8);Piet 等,2023 (https://arxiv.org/html/2605.05503#bib.bib13))。这些发现推动了对水印鲁棒性的更广泛视角:对新鲜模型输出的检测是有用的,但它本身并不能捕捉文本被另一个模型重写后发生的情况。

与我们研究最相关的工作是 Gloaguen 等人(2026 (https://arxiv.org/html/2605.05503#bib.bib5))的 DLM 水印。他们的方法将红-绿水印思想调整到任意顺序去噪,通过在可能上下文上以期望方式应用水印,并偏向那些有助于未来 token 携带水印信号的 token。检测器保持接近熟悉的红-绿二项检验,而生成时的水印被重新设计以适应扩散设置。他们的实验报告了在直接 LLaDA-8B 生成上超过 99% 的真阳性率,并评估了在几种自然修改(包括局部编辑、改述和反向翻译)下的鲁棒性。其他近期工作探索了非自回归或顺序无关生成的水印。顺序无关方案如 Unigram(Zhao 等,2024 (https://arxiv.org/html/2605.05503#bib.bib17))和 PatternMark(Chen 等,2025 (https://arxiv.org/html/2605.05503#bib.bib19))避免依赖于从左到右的上下文,但引入了关于可靠性、安全性和易被清除性的不同担忧。更近期的 DLM 导向方法,如用于离散扩散的 Gumbel 风格水印(Bagchi 等,2025 (https://arxiv.org/html/2605.05503#bib.bib3))和解码顺序水印方法 dgMARK(Hong 和 No,2026 (https://arxiv.org/html/2605.05503#bib.bib18)),研究了在扩散生成中嵌入来源信号的其他方式。这些方案的主要鲁棒性评估仍然主要关注新鲜生成、局部文本变化或单步变换。

我们的工作在精神上最接近鲁棒性文献,但在攻击设置上有所不同。我们不仅问 DLM 水印在新鲜输出上或一次改述后是否可检测,而是问它在由外部指令微调 LLM 反复重写后能否幸存。攻击者不需要访问水印密钥、水印 DLM 或检测器。他们只需要一个公共重写模型和一个自然的指令,如改述、简化、人性化或正式重写。因此,我们研究了一个多步水印移除过程,其中一次重写的输出成为下一次重写的输入。我们使用 WaterBench(Tu 等,2024 (https://arxiv.org/html/2605.05503#bib.bib16))作为提示源,因为它为水印评估提供了公认的多领域基础,但我们的关注点与原始基准不同:我们生成 DLM 水印输出,并研究水印在跨多个重写模型、重写风格和步数的反复重写下如何行为。

## 3 威胁模型:多步重写攻击

我们研究针对水印扩散语言模型输出的黑盒重写攻击。起始点是水印 DLM 生成的文本 \(x_0\)。检测器可以测试该文本并判断其是否携带水印。攻击者的目标是生成一个新文本 \(x_h\),该文本保留 \(x_0\) 的含义和有用性,但不再被检测为水印。

攻击者不需要访问水印密钥、水印 DLM 或检测器。相反,攻击者只有生成的文本,并可以访问一个外部的指令微调语言模型用作重写器。这符合实际场景:用户可以将水印答案复制到另一个 LLM,并请求使用普通的自然语言指令进行重写。因此,重写器是密钥无关的:它不知道输入文本包含水印,也不直接针对检测器进行优化。

形式上,设 \(x_0\) 为原始水印文本,\(R\) 为重写模型。一次重写攻击产生 \(x_1 = R(x_0, a)\),其中 \(a\) 是重写指令,例如改述、简化、人性化或用学术风格重写。多步重写攻击重复相同过程:\(x_h = R(x_{h-1}, a), \quad h = 1,\dots,H\)。我们将每个重写步骤称为一个*步*(hop)。在我们的实验中,我们评估最多 \(H=5\) 步。在同一链中保持相同的重写风格,以便直接测量增加重写次数的效果。

当最终重写文本未被水印检测器检测到,同时仍保留原始响应的含义时,攻击成功。如果 \(D(\cdot)\) 表示检测器,\(p(\cdot)\) 是其返回的 \(p\) 值,则原始文本在 \(p(x_0) < 0.05\) 时被检测到。重写后,对于该样本,攻击成功当且仅当 \(p(x_0) < 0.05\) 且 \(p(x_h) \geq 0.05\)。这个条件捕捉了核心的水印移除事件:原本被标记为水印的文本在重写后不再被标记。

我们将此过程称为*链式清洗*(chainwash):水印信号通过一系列模型介导的重写被冲洗掉。与 token 级删除、替换或手动编辑不同,链式清洗是生成式的。输出并不是通过原始文本的局部微小改动形成,而是通过另一个语言模型反复重新生成文本。这使得攻击不同于单次改述:每一步都可能引入新的词汇选择、新的句子结构以及新的思想排序,同时仍然旨在保留相同的语义内容。

## 4 实验设置

我们的评估研究 DLM 水印在文本被外部语言模型反复重写后是否仍然可检测。流程包含四个阶段。首先,我们从 WaterBench 收集固定的提示集。第二,我们生成水印文本(重新生成的部分被截断)

相似文章

通过追踪重写保护语言模型免受未授权蒸馏

arXiv cs.CL

本文提出了通过重写推理追踪来保护大型语言模型免受未授权知识蒸馏的方法,该方法在保持正确性的同时降低训练价值,并在蒸馏的学生模型中嵌入可验证的水印。该方案采用基于指令和基于梯度的重写技术来实现反蒸馏效果,同时不影响教师模型性能。

线性集成消除水印:论LLM中分布扰动的脆弱性

arXiv cs.CL

本文揭示了LLM水印的一个基本漏洞:当用户能够访问多个模型时,对其输出分布进行平均会抵消水印扰动,从而规避检测。作者提出了WASH方法,并通过实验证明,对3-5个模型进行平均可将检测z分数抑制在阈值以下,同时提升文本质量。

通过句法可预测性的语言学感知型LLM水印技术

arXiv cs.CL

本文介绍了STELA,一个语言学感知的LLM水印框架,通过POS n-gram的句法可预测性来平衡文本质量和检测鲁棒性。该方法无需访问模型logits即可实现公开可验证的水印检测,在类型学多样化的语言(英语、中文、韩语)上展示了优异性能。