PASA:针对语义不变攻击下的大语言模型生成文本的有原则嵌入空间水印方法

Hugging Face Daily Papers 论文

摘要

本文介绍了 PASA,这是一种针对大语言模型(LLM)生成文本的鲁棒性水印算法,它在语义层面利用潜在嵌入空间运作,以抵抗诸如改写(paraphrasing)之类的语义不变攻击。

为大语言模型(LLMs)添加水印是检测 LLM 生成文本并实现负责任部署的一种有前景的方法。然而,现有的水印方法通常容易受到语义不变攻击(例如改写)的影响。我们提出了 PASA,这是一种有原则、鲁棒且无失真(distortion-free)的水印算法,能够在语义层面嵌入和检测水印。PASA 在潜在嵌入空间的语义簇上运作,并通过由密钥和语义历史同步的共享随机性,在标记(token)序列和辅助序列之间构建分布依赖关系。这一设计基于我们的理论框架,该框架刻画了联合最优的嵌入-检测对,实现了检测准确性、鲁棒性和失真度之间的基本权衡。针对多种大语言模型和语义不变攻击的评估表明,即使在强烈的改写攻击下,PASA 依然保持鲁棒性,同时保持较高的文本质量,优于标准的词汇空间基线方法。消融研究进一步验证了我们超参数选择的有效性。网页:https://ai-kunkun.github.io/PASA_page/。
查看原文
查看缓存全文

缓存时间: 2026/05/13 08:12

论文页面 - PASA:一种针对大语言模型生成文本在语义不变攻击下的原则性嵌入空间水印方法

来源:https://huggingface.co/papers/2605.10977

摘要

PASA 是一种稳健的大语言模型水印算法,它利用潜在嵌入空间和共享随机性在语义层面进行安全的文本检测。

对大语言模型(LLMs)进行水印处理是检测 LLM 生成文本并实现负责任部署的一种有前景的方法。然而,现有的水印方法通常容易受到语义不变攻击的影响,例如改写(paraphrasing)。我们提出了 PASA,这是一种有原则的、稳健的且无失真(distortion-free)的水印算法,能够在语义层面嵌入和检测水印。PASA 在潜在嵌入空间的语义簇上运行,并通过由密钥(secret key)和语义历史(semantic history)同步的共享随机性,在标记(token)和辅助序列之间构建分布依赖性。这一设计基于我们的理论框架,该框架表征了联合最优的嵌入-检测对,实现了检测准确性、稳健性和失真之间的基本权衡。在多个大语言模型和语义不变攻击上的评估表明,即使在强烈的改写攻击下,PASA 仍能保持稳健,同时保留高文本质量,优于标准的词汇空间基线。消融研究进一步验证了我们超参数选择的有效性。

项目主页:https://ai-kunkun.github.io/PASA_page/

查看 arXiv 页面 (https://arxiv.org/abs/2605.10977) | 查看 PDF (https://arxiv.org/pdf/2605.10977) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10977)

在你的 agent 中获取此论文:

hf papers read 2605.10977

还没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.10977 以从此页面链接它。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.10977 以从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.10977 以从此页面链接它。

包含此论文的合集 0

没有合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

基于双重语义嵌入的大语言模型鲁棒文本水印

arXiv cs.CL

本文提出了双重嵌入水印(DEW),一种面向大语言模型的语义水印方案,通过利用上下文嵌入和词级嵌入来增强对抗改写和翻译的鲁棒性。实验结果表明,与先前方法相比,该方法在改写和翻译后仍能保持较好的检测性能。

通过句法可预测性的语言学感知型LLM水印技术

arXiv cs.CL

本文介绍了STELA,一个语言学感知的LLM水印框架,通过POS n-gram的句法可预测性来平衡文本质量和检测鲁棒性。该方法无需访问模型logits即可实现公开可验证的水印检测,在类型学多样化的语言(英语、中文、韩语)上展示了优异性能。

语言感知的非失真性LLM水印

arXiv cs.CL

介绍了LUNA,一种语言感知的LLM水印方法,实现了跨多语言的非失真嵌入和无模型检测,显著提升了AUROC和困惑度保持。

针对封闭 LLM 的可证明检测的数据集水印

arXiv cs.LG

本文提出了一种针对封闭大型语言模型(LLM)的新型数据集水印方法。该方法利用词对共现模式,能够以可证明的方式检测模型训练是否使用了专有数据,即使这些数据在训练数据集中仅占极小比例。