PASA：针对语义不变攻击下的大语言模型生成文本的有原则嵌入空间水印方法

Hugging Face Daily Papers 2026/05/09 00:00 论文

摘要

本文介绍了 PASA，这是一种针对大语言模型（LLM）生成文本的鲁棒性水印算法，它在语义层面利用潜在嵌入空间运作，以抵抗诸如改写（paraphrasing）之类的语义不变攻击。

为大语言模型（LLMs）添加水印是检测 LLM 生成文本并实现负责任部署的一种有前景的方法。然而，现有的水印方法通常容易受到语义不变攻击（例如改写）的影响。我们提出了 PASA，这是一种有原则、鲁棒且无失真（distortion-free）的水印算法，能够在语义层面嵌入和检测水印。PASA 在潜在嵌入空间的语义簇上运作，并通过由密钥和语义历史同步的共享随机性，在标记（token）序列和辅助序列之间构建分布依赖关系。这一设计基于我们的理论框架，该框架刻画了联合最优的嵌入-检测对，实现了检测准确性、鲁棒性和失真度之间的基本权衡。针对多种大语言模型和语义不变攻击的评估表明，即使在强烈的改写攻击下，PASA 依然保持鲁棒性，同时保持较高的文本质量，优于标准的词汇空间基线方法。消融研究进一步验证了我们超参数选择的有效性。网页：https://ai-kunkun.github.io/PASA_page/。

查看原文

查看缓存全文

缓存时间: 2026/05/13 08:12

论文页面 - PASA：一种针对大语言模型生成文本在语义不变攻击下的原则性嵌入空间水印方法

来源：https://huggingface.co/papers/2605.10977

摘要

PASA 是一种稳健的大语言模型水印算法，它利用潜在嵌入空间和共享随机性在语义层面进行安全的文本检测。

对大语言模型（LLMs）进行水印处理是检测 LLM 生成文本并实现负责任部署的一种有前景的方法。然而，现有的水印方法通常容易受到语义不变攻击的影响，例如改写（paraphrasing）。我们提出了 PASA，这是一种有原则的、稳健的且无失真（distortion-free）的水印算法，能够在语义层面嵌入和检测水印。PASA 在潜在嵌入空间的语义簇上运行，并通过由密钥（secret key）和语义历史（semantic history）同步的共享随机性，在标记（token）和辅助序列之间构建分布依赖性。这一设计基于我们的理论框架，该框架表征了联合最优的嵌入-检测对，实现了检测准确性、稳健性和失真之间的基本权衡。在多个大语言模型和语义不变攻击上的评估表明，即使在强烈的改写攻击下，PASA 仍能保持稳健，同时保留高文本质量，优于标准的词汇空间基线。消融研究进一步验证了我们超参数选择的有效性。

项目主页：https://ai-kunkun.github.io/PASA_page/

查看 arXiv 页面 (https://arxiv.org/abs/2605.10977) | 查看 PDF (https://arxiv.org/pdf/2605.10977) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.10977)

在你的 agent 中获取此论文：

hf papers read 2605.10977

还没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.10977 以从此页面链接它。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.10977 以从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.10977 以从此页面链接它。

包含此论文的合集 0

没有合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接它。

PASA：针对语义不变攻击下的大语言模型生成文本的有原则嵌入空间水印方法

论文页面 - PASA：一种针对大语言模型生成文本在语义不变攻击下的原则性嵌入空间水印方法

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

基于双重语义嵌入的大语言模型鲁棒文本水印

通过句法可预测性的语言学感知型LLM水印技术

语言感知的非失真性LLM水印

轻量级风格一致性分析：用于多媒体内容审核的大语言模型生成文本鲁棒性检测

针对封闭 LLM 的可证明检测的数据集水印

提交意见反馈