语言感知的非失真性LLM水印

arXiv cs.CL 2026/06/02 04:00 论文
llm-watermarking linguistics-aware non-distortionary multilingual security detection research
摘要
介绍了LUNA，一种语言感知的LLM水印方法，实现了跨多语言的非失真嵌入和无模型检测，显著提升了AUROC和困惑度保持。
arXiv:2606.00613v1 公告类型: 新摘要: 水印应能识别语言模型输出，而不会降低质量或将验证限于模型提供者。多语言部署使其更难，因为形态、分词和文字变化会改变水印证据自然进入的位置。我们引入了LUNA，一种语言自适应水印，它在标准随机密钥模型下结合了无模型检测和单标记非失真。LUNA从外部语料库的词性上下文中估计归一化的下一个标记熵，并用它来设置非失真二元锦标赛采样器的深度；检测器从文本、分词器、标注器和密钥中重建相同的调度。我们在六个类型多样的语言和两个领域上与八个主要基线进行对比。LUNA在十二个设置中达到了0.9959的AUROC和最低的平均绝对中位数困惑度偏移0.045；其95%自助法区间[0.022, 0.073]低于所有基线区间。LUNA还记录了最低的平均Self-BLEU、Distinct-1、惊奇度和熵偏移。它是唯一同时在多数设置中实现AUROC > 0.99和绝对中位数困惑度偏移低于0.1的方法，在12个设置中有9个达到此状态，而任何基线最多不超过2个。我们的代码可在：https://github.com/Shinwoo-Park/luna_watermark 获取。
查看原文
查看缓存全文
缓存时间: 2026/06/02 15:38
# 语言学感知的非失真性大语言模型水印

来源：https://arxiv.org/html/2606.00613

Shinwoo Park¹, Hyejin Park², Hyeseon An¹, Yo-Sub Han¹,†

¹延世大学，首尔，韩国 \{pshkhh（https://arxiv.org/html/2606.00613v1/mailto:[email protected]），hsan（https://arxiv.org/html/2606.00613v1/mailto:[email protected]），emmous（https://arxiv.org/html/2606.00613v1/mailto:[email protected]）\}@yonsei.ac.kr  
²伦斯勒理工学院，纽约州特洛伊，美国 [email protected]（https://arxiv.org/html/2606.00613v1/mailto:[email protected]）

###### 摘要

水印技术应能识别语言模型输出，而不会降低质量或限制验证仅由模型提供者进行。多语言部署使这一目标更加困难，因为形态、分词和文字改变了水印证据自然嵌入的位置。我们提出 LUNA，一种语言学自适应水印，结合了无模型检测与标准随机密钥模型下的单令牌非失真性。LUNA 从外部语料库中的词性上下文估计归一化的下一标签熵，并利用它设置非失真性二元锦标赛采样器的深度；检测器从文本、分词器、词性标注器和密钥重建相同的调度。我们针对六种类型学上多样的语言和两个领域，与八个主要基线进行了评估。LUNA 在十二个设置中达到了 AUROC 0.9959 和最低的平均绝对中位数困惑度偏移 0.045；其 95% 自助法区间 [0.022, 0.073] 低于所有基线区间。LUNA 在 Self-BLEU、Distinct-1、surprisal 和熵偏移上也记录了最低的平均值；它是唯一在大多数设置中同时实现 AUROC > 0.99 和 |ΔPPL_med| < 0.1 的方法，在 12 个设置中的 9 个达到此状态，而没有一个基线在超过 2 个设置中达到。我们的代码可在 https://github.com/Shinwoo-Park/luna_watermark 获取。

语言学感知的非失真性大语言模型水印  
Shinwoo Park¹, Hyejin Park², Hyeseon An¹, Yo-Sub Han¹,†  
¹延世大学，首尔，韩国  
{pshkhh（https://arxiv.org/html/2606.00613v1/mailto:[email protected]），hsan（https://arxiv.org/html/2606.00613v1/mailto:[email protected]），emmous（https://arxiv.org/html/2606.00613v1/mailto:[email protected]）}@yonsei.ac.kr  
²伦斯勒理工学院，纽约州特洛伊，美国  
[email protected]（https://arxiv.org/html/2606.00613v1/mailto:[email protected]）  
††通讯作者。

## 1 引言

大型语言模型现在能够大规模生成流畅文本，产生了对溯源、归因和虚假信息控制的实际需求（Liu et al., 2024（https://arxiv.org/html/2606.00613#bib.bib30）；Lalai et al., 2025（https://arxiv.org/html/2606.00613#bib.bib31）；European Parliament and Council of the European Union, 2024（https://arxiv.org/html/2606.00613#bib.bib29））。解码时水印通过在生成时嵌入统计信号并在部署后检测来满足这些需求（Kirchenbauer et al., 2023（https://arxiv.org/html/2606.00613#bib.bib34）；Dathathri et al., 2024（https://arxiv.org/html/2606.00613#bib.bib40））。一个可部署的水印应同时满足三个特性：单令牌非失真性，即在边缘化水印随机性后，下一个令牌的分布等于基础分布（Aaronson and Kirchner, 2022（https://arxiv.org/html/2606.00613#bib.bib14）；Kuditipudi et al., 2024（https://arxiv.org/html/2606.00613#bib.bib39）；Dathathri et al., 2024（https://arxiv.org/html/2606.00613#bib.bib40））；无模型检测，使得平台和第三方审计员无需查询原始模型或代理即可验证来源（Kirchenbauer et al., 2023（https://arxiv.org/html/2606.00613#bib.bib34）；Park et al., 2026（https://arxiv.org/html/2606.00613#bib.bib11））；以及自适应性，因为不同的上下文提供不同量的可靠容量（Lu et al., 2024（https://arxiv.org/html/2606.00613#bib.bib36）；Wang et al., 2025（https://arxiv.org/html/2606.00613#bib.bib37）；Park et al., 2026（https://arxiv.org/html/2606.00613#bib.bib11））。据我们所知，先前的工作尚未将这三者结合起来；最近的自适应非失真性设计从模型侧的不确定性中获取自适应性，这使检测依赖于logits或代理前向传递，削弱了公开可验证性。

LUNA 的核心观察是语言学的。不同语言在位置上允许的语法选择量存在系统差异。例如，在英语的词性上下文 DET ADJ（如“a quiet ...”）之后，下一个标签几乎总是 NOUN，承载的语法选择很少；而在韩语的语素序列 NNG JKO（宾语标记）之后，下一个位置可以是动词、副词或定语修饰语，概率分布在多个标签上。第一个上下文产生低的归一化下一标签熵，第二个则高。这种变化反映了语言及其分析流程，而非任何特定语言模型，因此带有词性标注的语料库可以估计局部句法不确定性的可复用信号（Comrie, 1989（https://arxiv.org/html/2606.00613#bib.bib99）；Greenberg and others, 1963（https://arxiv.org/html/2606.00613#bib.bib100）；Haspelmath, 2005（https://arxiv.org/html/2606.00613#bib.bib101））。结合一个前缀可测量的非失真性采样器，该信号将水印容量引导到语法选择更多的位置，同时保持一步边际分布，并且使检测仅依赖于分词器、词性标注器和密钥，无需模型logits。

我们提出 LUNA（语言学感知的非失真性大语言模型水印）。LUNA 从外部语料库估计词性上下文的归一化下一标签熵，从前缀中重建当前上下文 c_t，检索 λ(c_t) ∈ [0,1]，并将其映射为二元锦标赛采样器（Dathathri et al., 2024（https://arxiv.org/html/2606.00613#bib.bib40））的深度 m_t。该调度是前缀可测量的，因为 m_t 在采样 x_t 之前就已确定，这保留了随机密钥模型下的单令牌边际分布，并允许检测器仅从文本重建相同的深度序列。

我们在一个紧凑的、类型学感知的六语言网格上进行评估，涵盖分析型英语（Quirk et al., 1985（https://arxiv.org/html/2606.00613#bib.bib104）；Marcus et al., 1993（https://arxiv.org/html/2606.00613#bib.bib103））、孤立型汉语（Li and Thompson, 1981（https://arxiv.org/html/2606.00613#bib.bib79）；Xue et al., 2005（https://arxiv.org/html/2606.00613#bib.bib106））、黏着型韩语（Sohn, 2001（https://arxiv.org/html/2606.00613#bib.bib80）；Kim et al., 2024（https://arxiv.org/html/2606.00613#bib.bib71））和日语（Tsujimura, 2013（https://arxiv.org/html/2606.00613#bib.bib107）；Kuno, 1973（https://arxiv.org/html/2606.00613#bib.bib109））、屈折型德语（Haider, 2010（https://arxiv.org/html/2606.00613#bib.bib113）；Vikner, 1995（https://arxiv.org/html/2606.00613#bib.bib112））以及模板型闪米特语阿拉伯语（McCarthy, 1981（https://arxiv.org/html/2606.00613#bib.bib117）；Watson, 2002（https://arxiv.org/html/2606.00613#bib.bib118）；Ryding, 2005（https://arxiv.org/html/2606.00613#bib.bib119））。实验上，LUNA 达到了 AUROC 0.9959 和 5% FPR 下的 TPR 0.9868，与最强基线相差 0.011，并且在所有十二个设置中记录了五个质量指标中的最低平均偏移。

## 2 相关工作

表1：主要基线和LUNA的操作分类。列定义见2.4节（https://arxiv.org/html/2606.00613#S2.SS4）。匕首（†）标记了多样化的 GumbelSoft 变体，它软化了确定性的 Gumbel-max 解码，因此不继承 EXP 或 SynthID-Text 的精确单令牌分布保持保证。

### 2.1 分布偏移与自适应水印

第一类语言模型水印通过在解码时修改下一个令牌分布来嵌入可检测证据。KGW（Kirchenbauer et al., 2023（https://arxiv.org/html/2606.00613#bib.bib34））将词汇表分为密钥化的绿色和红色列表，在采样前偏向绿色列表logits，并通过观察到的绿色令牌计数的单比例测试检测水印。这种设计实现了高效的无模型检测，因为检测器只需要文本、密钥和分词器，而不需要目标模型的logits。同样的机制使 KGW 成为单令牌失真性的，因为采样器显式改变了分配给绿色列表令牌的概率质量。自适应变体在不同位置改变插入或检测。SWEET（Lee et al., 2024（https://arxiv.org/html/2606.00613#bib.bib35））专注于代码生成，并仅在模型熵超过阈值的位置应用 KGW 风格的偏置；其检测器复用相同的阈值。EWD（Lu et al., 2024（https://arxiv.org/html/2606.00613#bib.bib36））保持 KGW 风格的生成不变，而是在检测时根据模型侧熵对检测到的令牌进行加权。MorphMark（Wang et al., 2025（https://arxiv.org/html/2606.00613#bib.bib37））根据绿色列表令牌的累积概率质量调整插入强度，并保持 KGW 风格的检测。STELA（Park et al., 2026（https://arxiv.org/html/2606.00613#bib.bib11））从语料库中估计词性上下文的不确定性，并使用该信号调节绿色列表偏置和检测权重。这些方法表明，依赖于上下文的分配可以改善水印，同时它们的操作需求不同：SWEET 和 EWD 在检测时需要模型侧熵，MorphMark 保持 KGW 风格的无模型检测，而 STELA 通过词性标注器获得无模型的语言学自适应性，而不是logits。

### 2.2 分布保持与基于Gumbel的水印

第二类方法寻求在明确的随机性假设下保持基础解码分布的同时嵌入水印证据。Aaronson 风格的指数最小采样（Aaronson and Kirchner, 2022（https://arxiv.org/html/2606.00613#bib.bib14））以及 Kuditipudi et al.（2024（https://arxiv.org/html/2606.00613#bib.bib39））的框架通过密钥化采样方案（如逆变换和指数最小采样）实例化了这一原理。SynthID-Text（Dathathri et al., 2024（https://arxiv.org/html/2606.00613#bib.bib40））引入了锦标赛采样，并支持具有二元锦标赛的单令牌非失真性配置；其检测器在检测时计算密钥化分数，而不使用语言模型。尽管 DAWA（He et al., 2025（https://arxiv.org/html/2606.00613#bib.bib82））在显式失真约束下联合优化生成和检测，其自适应机制源自模型分布和代理模型，而非外部语言学信号。GumbelSoft（Fu et al., 2024（https://arxiv.org/html/2606.00613#bib.bib12））解决了 Gumbel 密钥化水印中的生成多样性问题。它将确定性解码替换为 Logits-Addition 的 softmax 变体，从 softmax((l_t + ξ_t)/τ) 采样，并通过聚合观察到的令牌的密钥化分数 ξ_t[x_t] 进行检测。这使得 GumbelSoft 成为强大的无模型基线，尽管论文并未建立我们赋予 EXP（Aaronson and Kirchner, 2022（https://arxiv.org/html/2606.00613#bib.bib14））和表1（https://arxiv.org/html/2606.00613#S2.T1）中非失真性 SynthID-Text 配置的精确一步分布保持保证。

### 2.3 多语言与跨语言水印

多语言和跨语言设置暴露了仅英语评估可能隐藏的困难：翻译、分词、形态和文字可以改变检测器可用的证据。先前的工作研究了水印在翻译、跨语言操作和回译鲁棒性下的存活情况（He et al., 2024（https://arxiv.org/html/2606.00613#bib.bib58）；Al Ghanim et al., 2025（https://arxiv.org/html/2606.00613#bib.bib97）；Mohamed and Gubri, 2025（https://arxiv.org/html/2606.00613#bib.bib98）），鲁棒性基准表明，释义、编辑和其他转换可以显著改变水印证据（Rastogi and Pruthi, 2024（https://arxiv.org/html/2606.00613#bib.bib92）；Tu et al., 2024（https://arxiv.org/html/2606.00613#bib.bib93）；Liang et al., 2025（https://arxiv.org/html/2606.00613#bib.bib96））。这一研究方向主要询问水印证据在文本跨语言、跨领域或表面形式转换后是否仍可检测。LUNA 在生成时解决了一个互补的问题：当语言在形态、分词、词序和文字上不同时，水印容量应进入文本的何处？其调度将锦标赛深度条件化为语言特定的词性上下文熵，使得水印证据的来源在任何下游转换发生前即可测量。

### 2.4 操作分类

表1（https://arxiv.org/html/2606.00613#S2.T1）总结了主要基线和 LUNA。单令牌非失真性指在所陈述的采样假设下的一步边际保持；自适应插入和自适应检测指在生成和检测期间依赖于上下文的信号分配；无模型检测指无需目标或代理语言模型前向传递的检测；语言学信号指自适应信号是否来自语料库估计的语言学结构而非模型 logits。绿色列表方法通过 logit 偏置获得证据并牺牲单令牌非失真性。分布保持方法在其采样假设下保持一步边际分布，但不使用可解释的语言学信号。自适应方法在插入和检测之间分配，其中一些依赖于模型侧熵。LUNA 占据了缺失的操作点：它继承了非失真性锦标赛骨干，用词性上下文不确定性替换固定调度，通过同一信号自适应插入和检测，并且支持无需目标或代理模型访问的检测。

## 3 背景

### 3.1 类型学压力测试

LUNA 假设水印容量应跟踪一个位置所提供的语法选择量；这取决于语言的形态和句法特征。评估使用六种语言，它们在形态、词序、空格和文字上展示了不同的相互作用：分析型英语和孤立型汉语（低屈折 SVO，书写系统不同），黏着型韩语和日语（小品词和词尾产生细粒度的词性序列），屈折型德语（动词第二位句法，带格和一致），以及模板型阿拉伯语（闪米特语系根-模式形态，使用辅音文字）。表2（https://arxiv.org/html/2606.00613#S3.T2）总结了压力点。

表2：评估使用的类型学压力测试。

### 3.2 锦标赛采样与检测

SynthID-Text 是一种生成式水印方案，由三个组件构成：随机种子生成器、采样算法和评分函数。令 V 表示词汇表，... \lambda_{L}(c) = \begin{cases} 0, & K_{L,c} \leq 1, \\[2.84526pt] \dfrac{H_{L}(c)}{\log_{2} K_{L,c}}, & K_{L,c} > 1. \end{cases} (3) 因此 λ_L(c) ∈ [0,1] 衡量观察到的下一标签分布相对于其支撑集的分散程度。LUNA 在 CulturaX（Nguyen et al., 2024（https://arxiv.org/html/2606.00613#bib.bib5））上估计这些表格，与评估数据分开。

---（根据论文内容，后面还有章节，但用户只提供了到3.2节的部分。由于是翻译任务，我们应翻译所给内容。用户提供的内容在“3.2 Background”后好像被截断了，但我们按照提供的完整内容翻译。）---

（注意：原文在3.2节公式后以“LUNA estimates these tables on CulturaX (Nguyen et al., 2024), separate from eva”结尾，可能不完整，但作为翻译，我们忠实地处理所给内容。）# 语言学感知的非失真性大语言模型水印

来源：https://arxiv.org/html/2606.00613

Shinwoo Park¹, Hyejin Park², Hyeseon An¹, Yo-Sub Han¹,†

¹延世大学，首尔，韩国  
{pshkhh (https://arxiv.org/html/2606.00613v1/mailto:[email protected]), hsan (https://arxiv.org/html/2606.00613v1/mailto:[email protected]), emmous (https://arxiv.org/html/2606.00613v1/mailto:[email protected])}@yonsei.ac.kr  
²伦斯勒理工学院，纽约州特洛伊，美国  
[email protected] (https://arxiv.org/html/2606.00613v1/mailto:[email protected])

###### 摘要

水印技术应能识别语言模型输出，而不会降低质量或限制验证仅由模型提供者进行。多语言部署使这一目标更加困难，因为形态、分词和文字改变了水印证据自然嵌入的位置。我们提出 LUNA，一种语言学自适应水印，结合了无模型检测与标准随机密钥模型下的单令牌非失真性。LUNA 从外部语料库中的词性上下文估计归一化的下一标签熵，并利用它设置非失真性二元锦标赛采样器的深度；检测器从文本、分词器、词性标注器和密钥重建相同的调度。我们针对六种类型学上多样的语言和两个领域，与八个主要基线进行了评估。LUNA 在十二个设置中达到了 AUROC 0.9959 和最低的平均绝对中位数困惑度偏移 0.045；其 95% 自助法区间 [0.022, 0.073] 低于所有基线区间。LUNA 在 Self-BLEU、Distinct-1、surprisal 和熵偏移上也记录了最低的平均值；它是唯一在大多数设置中同时实现 AUROC > 0.99 和 |ΔPPL_med| < 0.1 的方法，在 12 个设置中的 9 个达到此状态，而没有一个基线在超过 2 个设置中达到。我们的代码可在 https://github.com/Shinwoo-Park/luna_watermark 获取。

语言学感知的非失真性大语言模型水印  
Shinwoo Park¹, Hyejin Park², Hyeseon An¹, Yo-Sub Han¹,†  
¹延世大学，首尔，韩国  
{pshkhh (https://arxiv.org/html/2606.00613v1/mailto:[email protected]), hsan (https://arxiv.org/html/2606.00613v1/mailto:[email protected]), emmous (https://arxiv.org/html/2606.00613v1/mailto:[email protected])}@yonsei.ac.kr  
²伦斯勒理工学院，纽约州特洛伊，美国  
[email protected] (https://arxiv.org/html/2606.00613v1/mailto:[email protected])  
††通讯作者。

## 1 引言

大型语言模型现在能够大规模生成流畅文本，产生了对溯源、归因和虚假信息控制的实际需求（Liu et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib30)；Lalai et al., 2025 (https://arxiv.org/html/2606.00613#bib.bib31)；European Parliament and Council of the European Union, 2024 (https://arxiv.org/html/2606.00613#bib.bib29)）。解码时水印通过在生成时嵌入统计信号并在部署后检测来满足这些需求（Kirchenbauer et al., 2023 (https://arxiv.org/html/2606.00613#bib.bib34)；Dathathri et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib40)）。一个可部署的水印应同时满足三个特性：单令牌非失真性，即在边缘化水印随机性后，下一个令牌的分布等于基础分布（Aaronson and Kirchner, 2022 (https://arxiv.org/html/2606.00613#bib.bib14)；Kuditipudi et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib39)；Dathathri et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib40)）；无模型检测，使得平台和第三方审计员无需查询原始模型或代理即可验证来源（Kirchenbauer et al., 2023 (https://arxiv.org/html/2606.00613#bib.bib34)；Park et al., 2026 (https://arxiv.org/html/2606.00613#bib.bib11)）；以及自适应性，因为不同的上下文提供不同量的可靠容量（Lu et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib36)；Wang et al., 2025 (https://arxiv.org/html/2606.00613#bib.bib37)；Park et al., 2026 (https://arxiv.org/html/2606.00613#bib.bib11)）。据我们所知，先前的工作尚未将这三者结合起来；最近的自适应非失真性设计从模型侧的不确定性中获取自适应性，这使检测依赖于logits或代理前向传递，削弱了公开可验证性。

LUNA 的核心观察是语言学的。不同语言在位置上允许的语法选择量存在系统差异。例如，在英语的词性上下文 DET ADJ（如“a quiet ...”）之后，下一个标签几乎总是 NOUN，承载的语法选择很少；而在韩语的语素序列 NNG JKO（宾语标记）之后，下一个位置可以是动词、副词或定语修饰语，概率分布在多个标签上。第一个上下文产生低的归一化下一标签熵，第二个则高。这种变化反映了语言及其分析流程，而非任何特定语言模型，因此带有词性标注的语料库可以估计局部句法不确定性的可复用信号（Comrie, 1989 (https://arxiv.org/html/2606.00613#bib.bib99)；Greenberg and others, 1963 (https://arxiv.org/html/2606.00613#bib.bib100)；Haspelmath, 2005 (https://arxiv.org/html/2606.00613#bib.bib101)）。结合一个前缀可测量的非失真性采样器，该信号将水印容量引导到语法选择更多的位置，同时保持一步边际分布，并且使检测仅依赖于分词器、词性标注器和密钥，无需模型logits。

我们提出 LUNA（语言学感知的非失真性大语言模型水印）。LUNA 从外部语料库估计词性上下文的归一化下一标签熵，从前缀中重建当前上下文 c_t，检索 λ(c_t) ∈ [0,1]，并将其映射为二元锦标赛采样器（Dathathri et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib40)）的深度 m_t。该调度是前缀可测量的，因为 m_t 在采样 x_t 之前就已确定，这保留了随机密钥模型下的单令牌边际分布，并且允许检测器仅从文本重建相同的深度序列。

我们在一个紧凑的、类型学感知的六语言网格上进行评估，涵盖分析型英语（Quirk et al., 1985 (https://arxiv.org/html/2606.00613#bib.bib104)；Marcus et al., 1993 (https://arxiv.org/html/2606.00613#bib.bib103)）、孤立型汉语（Li and Thompson, 1981 (https://arxiv.org/html/2606.00613#bib.bib79)；Xue et al., 2005 (https://arxiv.org/html/2606.00613#bib.bib106)）、黏着型韩语（Sohn, 2001 (https://arxiv.org/html/2606.00613#bib.bib80)；Kim et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib71)）和日语（Tsujimura, 2013 (https://arxiv.org/html/2606.00613#bib.bib107)；Kuno, 1973 (https://arxiv.org/html/2606.00613#bib.bib109)）、屈折型德语（Haider, 2010 (https://arxiv.org/html/2606.00613#bib.bib113)；Vikner, 1995 (https://arxiv.org/html/2606.00613#bib.bib112)）以及模板型闪米特语阿拉伯语（McCarthy, 1981 (https://arxiv.org/html/2606.00613#bib.bib117)；Watson, 2002 (https://arxiv.org/html/2606.00613#bib.bib118)；Ryding, 2005 (https://arxiv.org/html/2606.00613#bib.bib119)）。实验上，LUNA 达到了 AUROC 0.9959 和 5% FPR 下的 TPR 0.9868，与最强基线相差 0.011，并且在所有十二个设置中记录了五个质量指标中的最低平均偏移。

## 2 相关工作

表1：主要基线和LUNA的操作分类。列定义见2.4节 (https://arxiv.org/html/2606.00613#S2.SS4)。匕首（†）标记了多样化的 GumbelSoft 变体，它软化了确定性的 Gumbel-max 解码，因此不继承 EXP 或 SynthID-Text 的精确单令牌分布保持保证。

### 2.1 分布偏移与自适应水印

第一类语言模型水印通过在解码时修改下一个令牌分布来嵌入可检测证据。KGW（Kirchenbauer et al., 2023 (https://arxiv.org/html/2606.00613#bib.bib34)）将词汇表分为密钥化的绿色和红色列表，在采样前偏向绿色列表logits，并通过观察到的绿色令牌计数的单比例测试检测水印。这种设计实现了高效的无模型检测，因为检测器只需要文本、密钥和分词器，而不需要目标模型的logits。同样的机制使 KGW 成为单令牌失真性的，因为采样器显式改变了分配给绿色列表令牌的概率质量。自适应变体在不同位置改变插入或检测。SWEET（Lee et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib35)）专注于代码生成，并仅在模型熵超过阈值的位置应用 KGW 风格的偏置；其检测器复用相同的阈值。EWD（Lu et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib36)）保持 KGW 风格的生成不变，而是在检测时根据模型侧熵对检测到的令牌进行加权。MorphMark（Wang et al., 2025 (https://arxiv.org/html/2606.00613#bib.bib37)）根据绿色列表令牌的累积概率质量调整插入强度，并保持 KGW 风格的检测。STELA（Park et al., 2026 (https://arxiv.org/html/2606.00613#bib.bib11)）从语料库中估计词性上下文的不确定性，并使用该信号调节绿色列表偏置和检测权重。这些方法表明，依赖于上下文的分配可以改善水印，同时它们的操作需求不同：SWEET 和 EWD 在检测时需要模型侧熵，MorphMark 保持 KGW 风格的无模型检测，而 STELA 通过词性标注器获得无模型的语言学自适应性，而不是logits。

### 2.2 分布保持与基于Gumbel的水印

第二类方法寻求在明确的随机性假设下保持基础解码分布的同时嵌入水印证据。Aaronson 风格的指数最小采样（Aaronson and Kirchner, 2022 (https://arxiv.org/html/2606.00613#bib.bib14)）以及 Kuditipudi et al.（2024 (https://arxiv.org/html/2606.00613#bib.bib39)）的框架通过密钥化采样方案（如逆变换和指数最小采样）实例化了这一原理。SynthID-Text（Dathathri et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib40)）引入了锦标赛采样，并支持具有二元锦标赛的单令牌非失真性配置；其检测器在检测时计算密钥化分数，而不使用语言模型。尽管 DAWA（He et al., 2025 (https://arxiv.org/html/2606.00613#bib.bib82)）在显式失真约束下联合优化生成和检测，其自适应机制源自模型分布和代理模型，而非外部语言学信号。GumbelSoft（Fu et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib12)）解决了 Gumbel 密钥化水印中的生成多样性问题。它将确定性解码替换为 Logits-Addition 的 softmax 变体，从 softmax((l_t + ξ_t)/τ) 采样，并通过聚合观察到的令牌的密钥化分数 ξ_t[x_t] 进行检测。这使得 GumbelSoft 成为强大的无模型基线，尽管论文并未建立我们赋予 EXP（Aaronson and Kirchner, 2022 (https://arxiv.org/html/2606.00613#bib.bib14)）和表1 (https://arxiv.org/html/2606.00613#S2.T1) 中非失真性 SynthID-Text 配置的精确一步分布保持保证。

### 2.3 多语言与跨语言水印

多语言和跨语言设置暴露了仅英语评估可能隐藏的困难：翻译、分词、形态和文字可以改变检测器可用的证据。先前的工作研究了水印在翻译、跨语言操作和回译鲁棒性下的存活情况（He et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib58)；Al Ghanim et al., 2025 (https://arxiv.org/html/2606.00613#bib.bib97)；Mohamed and Gubri, 2025 (https://arxiv.org/html/2606.00613#bib.bib98)），鲁棒性基准表明，释义、编辑和其他转换可以显著改变水印证据（Rastogi and Pruthi, 2024 (https://arxiv.org/html/2606.00613#bib.bib92)；Tu et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib93)；Liang et al., 2025 (https://arxiv.org/html/2606.00613#bib.bib96)）。这一研究方向主要询问水印证据在文本跨语言、跨领域或表面形式转换后是否仍可检测。LUNA 在生成时解决了一个互补的问题：当语言在形态、分词、词序和文字上不同时，水印容量应进入文本的何处？其调度将锦标赛深度条件化为语言特定的词性上下文熵，使得水印证据的来源在任何下游转换发生前即可测量。

### 2.4 操作分类

表1 (https://arxiv.org/html/2606.00613#S2.T1) 总结了主要基线和 LUNA。单令牌非失真性指在所陈述的采样假设下的一步边际保持；自适应插入和自适应检测指在生成和检测期间依赖于上下文的信号分配；无模型检测指无需目标或代理语言模型前向传递的检测；语言学信号指自适应信号是否来自语料库估计的语言学结构而非模型 logits。绿色列表方法通过 logit 偏置获得证据并牺牲单令牌非失真性。分布保持方法在其采样假设下保持一步边际分布，但不使用可解释的语言学信号。自适应方法在插入和检测之间分配，其中一些依赖于模型侧熵。LUNA 占据了缺失的操作点：它继承了非失真性锦标赛骨干，用词性上下文不确定性替换固定调度，通过同一信号自适应插入和检测，并且支持无需目标或代理模型访问的检测。

## 3 背景

### 3.1 类型学压力测试

LUNA 假设水印容量应跟踪一个位置所提供的语法选择量；这取决于语言的形态和句法特征。评估使用六种语言，它们在形态、词序、空格和文字上展示了不同的相互作用：分析型英语和孤立型汉语（低屈折 SVO，书写系统不同），黏着型韩语和日语（小品词和词尾产生细粒度的词性序列），屈折型德语（动词第二位句法，带格和一致），以及模板型阿拉伯语（闪米特语系根-模式形态，使用辅音文字）。表2 (https://arxiv.org/html/2606.00613#S3.T2) 总结了压力点。

表2：评估使用的类型学压力测试。

### 3.2 锦标赛采样与检测

SynthID-Text 是一种生成式水印方案，由三个组件构成：随机种子生成器、采样算法和评分函数。令 V 表示词汇表，x_{1} \ldots ... \lambda_{L}(c)=\begin{cases}0,&K_{L,c}\leq 1,\\[2.84526pt] \dfrac{H_{L}(c)}{\log_{2}K_{L,c}},&K_{L,c}>1.\end{cases} (3) 因此 λ_L(c) ∈ [0,1] 衡量观察到的下一标签分布相对于其支撑集的分散程度。LUNA 在 CulturaX（Nguyen et al., 2024 (https://arxiv.org/html/2606.00613#bib.bib5)）上估计这些表格，与评估数据分开。
语言感知的非失真性LLM水印

相似文章

通过句法可预测性的语言学感知型LLM水印技术

基于双重语义嵌入的大语言模型鲁棒文本水印

SLAM：面向语言模型的结构语言激活标记

标记错误症状：评估医学文本中的LLM水印

针对封闭 LLM 的可证明检测的数据集水印

提交意见反馈