签名过滤:大型语言模型中统计水印检测的轻量级增强

arXiv cs.LG 论文

摘要

签名过滤是一种检测时模块,通过学习并移除那些导致水印测试不可靠的“签名”令牌,来提高LLM中统计水印检测的性能,在保持低误报率的同时大幅提升了检测率。

arXiv:2606.18430v1 公告类型:新发布 摘要:统计水印有助于组织归因大型语言模型(LLM)的输出,但现有检测器在水印信号弱、文本重复或水印被编辑时常常表现不佳。我们提出签名过滤,这是一种检测时模块,无需修改水印嵌入和文本生成即可增强水印检测。它学习一小部分“签名”令牌,这些令牌的存在会使水印测试不可靠,并在检测前将其移除。签名通过在小训练集上求解混合整数线性规划获得,约束条件最大化真阳性率。我们还在多种攻击者模型(色盲、色彩自适应和分布相关)下推导了有限样本和渐近界。在四种知名水印族(Kgw、Sweet、Unigram、Exp)、四个基准语料库(C4、MBPP、HumanEval、Code-Search-Net)以及六种LLM(Opt-1.3b、Opt-6.7b、Llama2-13b、Llama3.1-8b、Qwen2.5-14b、Phi-3-medium-14b)上,2-gram和3-gram签名在弱信号和低熵设置中将检测率从无过滤时的8%~31%提升至有过滤时的78%~99%,同时保持误报率可控且通常可忽略。在压力测试中,我们打乱句子并通过稀释、删除和替换扰动25%~50%的令牌,针对Kgw风格水印的2-gram过滤器保留了大部分干净文本检测增益,通常匹配或超越先进的WinMax水印检测器。因此,签名过滤为信息处理工作流中LLM文本的基于水印的溯源检查提供了一种简单、可扩展且与模型无关的附加方法。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:42

# 签名过滤:一种轻量级的大语言模型统计水印检测增强方法 来源:https://arxiv.org/html/2606.18430 ###### 摘要 统计水印有助于组织归因大语言模型(LLM)的输出,然而现有的检测器在水印信号较弱、文本重复性强或水印被编辑时常常表现不佳。我们提出**签名过滤**,一种检测阶段的模块,可在不修改水印嵌入和文本生成的情况下增强水印检测。它学习一小部分“签名”令牌,这些令牌的存在会使水印测试不可靠,并在检测前将其移除。这些签名通过在小训练集上求解混合整数线性规划获得,其约束条件旨在最大化真阳性率。此外,我们在多种攻击模型(颜色盲、颜色自适应和分布相关)下推导了有限样本和渐近界。在四种知名水印族(Kgw, Sweet, Unigram, Exp)、四个基准语料库(C4, MBPP, HumanEval, Code-Search-Net)和六种LLM(Opt-1.3b, Opt-6.7b, Llama2-13b, Llama3.1-8b, Qwen2.5-14b, Phi-3-medium-14b)上,2-3元语法签名将弱信号和低熵设置下的检测率从无过滤时的8-31%提高到有过滤时的78-99%,同时将假阳性控制在可控且通常可忽略的水平。在压力测试中,即使打乱句子并通过稀释、删除和替换扰动25-50%的令牌,针对Kgw风格水印的2元语法过滤器仍能保留大部分干净文本的检测增益,通常可与先进的WinMax水印检测器媲美或更优。因此,签名过滤为信息处理流程中基于水印的LLM文本来源验证提供了一种简单、可扩展且与模型无关的附加方法。

###### 关键词:大语言模型,优化,水印

## 1 引言

大语言模型(LLM)现在为公共网络服务和内部企业应用生成大量文本。它们支撑着多个领域的摘要、辅助和内容创作[41]。当这些输出与人类撰写的材料混合在搜索索引、内容源和机构库中时,组织必须定期判断某段文本是否可能由AI生成。这些决策影响信息服务的可靠性、合规性和用户信任[42, 40]。文本水印通过在生成过程中嵌入不可察觉的统计信号(之后可被验证)来满足这一需求,为信息处理流程中的归因、审计和治理提供了一种实用机制[54, 39]。然而,当前的检测器在以下情况下常常难以奏效:(i) 水印信号必须保持微弱以维持文本质量,(ii) 文本本身高度重复或公式化,或 (iii) 加水印的段落被大量混合或编辑[39]。我们提出**签名过滤**来应对这些挑战。其思路很简单:在执行基线假设检验之前,我们从文本中移除一组预先计算好的“统计干扰”令牌。这些令牌构成一个签名,可以离线从历史模型输出中学习,在线在文本生成过程中学习,或者增量地在流式语料上学习。移除它们可以增大边界情况下水印文本与自然文本之间的分离度,并在弱信号和低熵场景下恢复许多真阳性。图1(https://arxiv.org/html/2606.18430#S1.F1)展示了在Kgw下的效果:签名过滤将一个边界性的z分数差距扩大为决定性的差距,将两个段落之间的差距从1.77增加到5.01,从而使检测器能够正确识别原本不可检测的水印。

具有市场营销背景的人员被政府机构以多种身份聘用。地方、州和联邦层面的政府机构都在包括但不限于公共关系、资产处置、债券销售和采购等领域聘用市场营销专业人员。
(a)无水印文本

具有市场营销背景的人员被政府机构以多种身份聘用。地方、州和联邦层面的政府机构都在包括但不限于公共关系、资产处置、债券销售和采购等领域聘用市场营销专业人员。
(b)无水印且经过滤

公共部门营销人员为政府机构、非营利组织和其他公共机构工作。他们的目标是向公众推广其组织的服务、产品和政策。
(c)加水印文本

公共部门营销人员为政府机构、非营利组织和其他公共机构工作。他们的目标是向公众推广其组织的服务、产品和政策。
(d)加水印且经过滤

图1:使用和不使用签名过滤的无水印及加水印文本。包含过滤令牌的词汇以黑色呈现。(a)z = -0.14,红色 = 50%,绿色 = 49%;(b)z = 1.66,红色 = 29%,绿色 = 38%,过滤 = 33%;(c)z = 1.63,红色 = 44%,绿色 = 56%;(d)z = 6.67,红色 = 9%,绿色 = 42%,过滤 = 49%。注意过滤对分数的影响不同:它将加水印的z分数从1.63提升到6.67,但将无水印的z分数从-0.14略微抬高到1.66。因此,相对于阈值z₀=4,该过滤步骤仅对加水印文本反转了检测器的决策。

从统计角度来看,一个自然的问题是:基于观察到的文本删除令牌是否会破坏底层水印检验的零分布假设。在我们的设定中,这并不会。在Kgw着色模型下,无水印文本中的令牌颜色是条件于秘密哈希密钥的独立同分布随机变量。删除任何与这些隐藏颜色独立选择的令牌子集,都会保留剩余令牌的分布,因此通常的z检验仍然有效。对于Exp风格的水印,检测器为每个已实现的令牌分配一个得分,在无水印文本中这些得分形成独立同分布随机变量。由于我们的过滤器是观察文本的确定性函数,保留的得分仍然独立同分布,因此过滤后零分布校准正确。因此,对于无水印文本,只要删除规则仅依赖于可观察特征且过滤后的文本足够大,在过滤文本上运行基线检验与在原始文本上运行检验在统计上同样有效。

另一个担忧是,任何基于独立性假设的技术在相关文本上是否能保持性能。我们的实证评估表明,即使令牌着色远非独立,签名过滤仍然有效。首先,在低熵代码语料上,由于变化有限,许多检测器失效,签名过滤在Kgw上以可忽略的假阳性率(FPR)实现了接近最优的真阳性率(TPR)。其次,当应用于更通用的水印方案(Kgw着色假设不再成立)时,与基线相比,签名过滤仍然持续改善检测。第三,在常见的句子级和词级水印移除攻击下,2元语法签名过滤可以匹配或超越最先进的抗攻击检测器。综合来看,这些结果表明我们的方法在非理想和相关设置中具有鲁棒性。

尽管签名是从训练数据集中学习得到的,但在我们的实验中其性能泛化得相当好。在大约1000个训练文本上学习的签名,在应用到50000个未见文本时仍能保持强TPR和可忽略的FPR。我们进一步证明,在连续文本批次上计算单独签名并聚合其分数,可以保持接近理想的TPR,同时将组合FPR远低于联合界。因此,签名生成在部署时产生一次性或摊销成本,之后学习的过滤器可以优雅地扩展到更大或全新的数据集。

**研究目标与贡献。** 鉴于现有LLM水印检测器在弱信号、低熵和编辑文本设置中的脆弱性,本研究追求三个目标:

- • **研究检测阶段的过滤。** 我们研究在执行标准水印检验之前丢弃一小部分预先学习的令牌子集是否能提高检测能力。
- • **刻画统计有效性。** 我们寻求分析条件,在这些条件下我们的增强方法在文本相关、部分编辑或对抗性构造时仍然可靠。
- • **评估有效性和可扩展性。** 我们在各种实际设置中评估性能,研究如何在大规模信息处理流程中有效部署我们的方法。

为达成这些目标,本研究做出以下主要贡献:

- • **设计一种LLM水印的检测阶段增强方法。** 我们开发了签名过滤作为现有统计水印方案的即插即用模块。它旨在改善弱信号、低变化和编辑文本场景下的水印检测,而现有技术在这些场景中常常遇到困难。
- • **在威胁模型下提供形式化的统计保证。** 我们分析了签名过滤何时能保持标准z检验的名义I型错误,并在多种对抗和依赖模型下推导了假阳性的有限样本和渐近最坏情况界。
- • **在真实攻击和数据集上评估检测能力。** 我们在水印族、语言模型和语料库基准上评估签名过滤,并量化过滤效果对签名训练规模的敏感性。结果表明,签名可以增强检测、抵抗多种文本编辑、通过预测性重用进行泛化,并有效地扩展到流式文本。

我们的方法与现有水印增强技术存在若干根本不同。先前的增强通常修改嵌入过程、重新设计检验统计量(例如,在滑动窗口上最大化),或引入新的基于熵或语义的分数,这些分数需要与水印检验一起校准。我们的方法保持底层水印族和z检验不变,而是通过在代表性数据上优化来学习一个紧凑的过滤器。这种设计通过限制正确决策被翻转的概率,提供了对额外假阳性的显式控制。它还暴露了可解释的杠杆,可以与来源感知工作流中的显式服务级目标相联系。

本文的其余部分组织如下:第2节(https://arxiv.org/html/2606.18430#S2)综述相关工作;第3节(https://arxiv.org/html/2606.18430#S3)介绍符号和预备知识;第4节(https://arxiv.org/html/2606.18430#S4)介绍方法学和MILP公式;第5节(https://arxiv.org/html/2606.18430#S5)在多种威胁模型下提供假阳性分析;第6节(https://arxiv.org/html/2606.18430#S6)概述我们的实证结果和部署指南。第7节(https://arxiv.org/html/2606.18430#S7)讨论研究意义、局限性和未来工作。

## 2 相关工作

**信息完整性。** 信息完整性现在被广泛认为是信息检索和内容管理系统面临的社会技术挑战[38]。平台和机构必须大规模判断内容是否足够真实和可信。最近的研究涵盖了消费者对AI中介内容的信任[41]、假新闻检测[35, 36, 37],以及基于分布规律性的统计检验[40]。我们的贡献——一种统计水印的后处理模块,可嵌入验证流程,尊重操作假阳性预算,并支持流式部署和数据漂移监控——自然契合这些关切。相对于现有的检测格局,例如融合局部上下文和全局信号的假新闻模型[35]以及多模态共注意力检测器[36, 37],签名过滤扮演了**领域无关的文本通道预过滤器**的角色,可以与网络线索等补充证据结合使用。

**LLM水印。** 水印已适应于LLM,用于归因AI生成的文本[54, 39]。本工作中的签名方法与两大主流水印方法族兼容,即Kgw族和Exp族[30, 55]:前者偏置模型的输出分布以嵌入信号[27, 32, 28, 31],而后者在不扭曲分布的情况下引导令牌选择[53, 58, 3]。面向生产的水印如SynthID-Text[12]则避免重复偏差,通过重复上下文掩码来保持文本质量,即在文本中再次出现先前使用过的上下文窗口时跳过水印和评分。从管理角度来看,这些方法作为**内联来源标记**,下游系统可以在事后验证。

**挑战场景下的检测。** 当水印信号弱、文本变化小或内容被编辑时,水印检测很困难。几种**检测阶段**的技术在不改变嵌入水印的情况下应对这些挑战。基于熵的检测器如Ewd重新加权令牌贡献,使得高熵位置主导统计量,提高了在低熵材料上的鲁棒性[29]。Sweet则通过抑制生成和检测时的低熵片段,将对数修改水印扩展到代码[32]。基于窗口的方案如WinMax用滑动窗口上的最大值替换全局分数,以在编辑和稀释后恢复信号,而WaterSeeker进一步在长文档中定位水印区域[28, 24]。

相似文章

线性集成消除水印:论LLM中分布扰动的脆弱性

arXiv cs.CL

本文揭示了LLM水印的一个基本漏洞:当用户能够访问多个模型时,对其输出分布进行平均会抵消水印扰动,从而规避检测。作者提出了WASH方法,并通过实验证明,对3-5个模型进行平均可将检测z分数抑制在阈值以下,同时提升文本质量。

基于双重语义嵌入的大语言模型鲁棒文本水印

arXiv cs.CL

本文提出了双重嵌入水印(DEW),一种面向大语言模型的语义水印方案,通过利用上下文嵌入和词级嵌入来增强对抗改写和翻译的鲁棒性。实验结果表明,与先前方法相比,该方法在改写和翻译后仍能保持较好的检测性能。

通过句法可预测性的语言学感知型LLM水印技术

arXiv cs.CL

本文介绍了STELA,一个语言学感知的LLM水印框架,通过POS n-gram的句法可预测性来平衡文本质量和检测鲁棒性。该方法无需访问模型logits即可实现公开可验证的水印检测,在类型学多样化的语言(英语、中文、韩语)上展示了优异性能。

SLAM:面向语言模型的结构语言激活标记

arXiv cs.CL

SLAM 是一种新颖的白盒水印方案,利用稀疏自编码器将标记嵌入 LLM 残差流的结构几何中,在 Gemma-2 模型上实现了 100% 的检测准确率,且质量损失极小,避免了先前方法对 token 分布的偏置。

语言感知的非失真性LLM水印

arXiv cs.CL

介绍了LUNA,一种语言感知的LLM水印方法,实现了跨多语言的非失真嵌入和无模型检测,显著提升了AUROC和困惑度保持。