针对封闭 LLM 的可证明检测的数据集水印
摘要
本文提出了一种针对封闭大型语言模型(LLM)的新型数据集水印方法。该方法利用词对共现模式,能够以可证明的方式检测模型训练是否使用了专有数据,即使这些数据在训练数据集中仅占极小比例。
arXiv:2605.06865v1 公告类型:新文章
摘要:大型语言模型(LLM)在海量且松散筛选的数据上进行预训练和后训练,这引发了这些模型可能在专有数据集或与评估使用相同的基准数据集上接受训练的可能性。这促使我们需要数据集水印技术:设计特定的数据集,使得在其上进行训练会在生成的模型中留下可检测的特征标记。先前的工作主要探讨了针对开放模型的问题。我们引入了第一种针对封闭 LLM 且具有可证明检测能力的数据集水印方法。具体而言,我们通过改写来增加随机选定的词对之间的共现频率,从而嵌入数据集级别的水印信号,并通过在模型生成输出的共现模式上进行统计检验来检测该水印。我们在多个基础模型和基准数据集上评估了该方法,结果显示其在微调阶段能够可靠地检测出水印($p <0.01$)。值得注意的是,在水印数据集仅约占微调总 token 数约 $1\%$ 的数据混合设置中,我们的方法依然有效。此外,我们证明该方法保持了基准数据集的实用性和语义完整性。
查看缓存全文
缓存时间: 2026/05/11 06:59
# 具有可证明检测能力的闭源 LLM 数据集水印技术
来源:https://arxiv.org/html/2605.06865
Pengrun Huang peh006@ucsd\.edu&Kamalika Chaudhuri kamalika@ucsd\.edu&Yu\-Xiang Wang yuxiangw@ucsd\.edu
###### 摘要
大型语言模型(LLMs)是在海量且通常松散策展的数据上进行预训练和后训练的,这引发了这些模型可能在专有数据集或用于评估的相同基准数据集上进行了训练的可能性。这促使了数据集水印的需求:设计数据集,使得在其上训练会在生成的模型中留下可检测的签名。先前的工作已经针对开放模型探索了这一问题。我们介绍了第一种针对闭源 LLMs 且具有可证明检测能力的数据集水印方法。特别是,我们通过改写来增加随机选择的词对共现频率,从而嵌入数据集级水印信号,并使用模型生成输出中的共现模式的统计检验来检测该信号。我们使用多个基础模型和基准数据集评估了我们的方法,并证明它在微调阶段可靠地检测到了水印($p<0.01$)。值得注意的是,我们的方法在数据混合设置中仍然有效,其中带水印的数据集仅占总微调 token 的约 1\%。此外,我们表明我们的方法保留了基准的效用和语义完整性。
## 1 引言
大型语言模型(LLMs)通常在海量的、往往松散策展的数据集上进行预训练和后训练,这些数据集可能会在训练过程中无意中包含专有数据或基准数据(Grynbaum 和 Mac, 2023; Xue 等, 2024)。此外,在后训练阶段,模型开发人员通常有动力优化基准表现(Eriksson 等, 2025)——这一过程被称为“基准刷榜(benchmaxxing)”。最近的研究发现,模型开发人员可能在后训练阶段有意或无意地包含基准数据(Mündler 等, 2025)。这些担忧促使需要一种方法,使数据提供者能够仅根据模型的输入-输出行为,可靠地审计其数据集是否已被纳入模型训练中。
虽然检测现有数据集中的污染具有挑战性,但最近的工作提出了数据集水印(Rastogi 等, 2025; Sander 等, 2025),即数据所有者在发布前将水印信号嵌入数据集中,以便如果该数据集后来被用于训练 LLM 模型,审计员可以通过统计检验从训练后的模型中检测到该信号。
先前的工作提出了几种数据集水印方法。例如,Rastogi 等(2025)提出了 STAMP,它生成数据集的多个改写版本,并公开其中一个作为公共版本;在检测时,它测试公共版本是否 consistently 比私有版本获得更低的不确定性(perplexity)。Sander 等(2025)认为,使用标准的水印 LLM(Kirchenbauer 等, 2023)改写数据集就足够了,因为扰动后的下一个 token 概率足够持久以具有“放射性”——这是一种经验观察到的属性,即在带水印文本上训练的 LLMs 的输出仍然带有水印(Sander 等, 2024)。然而,这些方法依赖于对模型内部(如对数概率或下一个 token 分布)的访问,因此仅适用于开放模型设置。此外,它们的方法不提供检测误报率的理论保证。
在本工作中,我们提出了一种新的数据集水印框架,在检测时仅需通过 API 访问模型。我们的方法通过增加随机选择的词对集合的共现频率来嵌入数据集级水印,从而引入不太可能自然产生的受控虚假相关性。在检测时,我们查询训练后的模型并分析其生成文本中的词对共现统计数据,以确定是否存在水印。我们为检测算法的误报率提供了理论保证,这些保证是无分布且与模型无关的,不需要对底层数据分布或模型内部做任何假设。
我们在多种模型架构和基准数据集上评估了我们的方法,并证明它在微调设置中实现了统计显著的检测($p<0.01$)。值得注意的是,即使在带水印的数据集仅占总微调 token 约 1\% 的数据混合 regime 中,我们的方法仍然有效。此外,我们证明我们的方法比先前的方法对常见的轻量级文本修改(如随机删除、同义词替换和表情符号插入)更具鲁棒性,检测性能仅出现适度下降。最后,我们表明我们的方法保留了基准的效用和语义完整性。
## 2 问题 formulation
我们研究数据集水印问题。数据所有者在发布前对数据集加水印,以便如果该数据集后来被用于训练 LLM 模型,审计员可以在统计保证下从训练后的模型中检测到其使用情况。
**模型访问。** 检测主要有两种模型访问方式:
- • **闭源模型访问:** 用户只能通过 API 查询模型并观察其生成的输出,无法访问 logits 或内部状态。大多数聊天机器人都属于这种情况。
- • **开放模型访问:** 用户可以前向输入并观察输出 logits、token 概率并计算困惑度等分数。这是开源模型的典型设置。
先前的工作需要开放模型访问,而我们的方法假设闭源模型设置。
## 3 相关工作
**基准污染。** 基准污染发生在评估数据集被包含在训练数据中——无论是预训练还是后训练——导致性能虚高和评估不可靠(Singh 等, 2024; Xue 等, 2024; Jiang 等, 2024; Chen 等, 2025)。实证研究表明,模型由于记忆而非泛化能力可以实现强大的基准表现(Zhang 等, 2024),这凸显了可靠污染检测的必要性。
**数据集推断。** 先前的工作尝试使用启发式信号来推断数据集使用情况,例如聚合成员推断分数(Maini 等, 2024; Yeo 等, 2018; Carlini 等, 2021; Shi 等, 2024)或利用数据集排序假设(Oren 等, 2023)。然而,这些方法依赖于额外的假设(例如,IID 保留数据或规范排序),并且在一般设置中不提供稳健的统计保证。
**数据集水印。** 其他一些方法使用主动方式对数据集加水印:Lau 等(2024)提出了一种启发式方法 Waterfall,用于保护文本的知识产权,它通过秘密词汇空间置换扰动改写器的输出 logits 来嵌入水印,并通过基于前缀的生成进行检测。尽管它在某些场景中有效,但尚不清楚如何将其扩展到基准水印,因为基准数据集中的每个样本仅包含几个 token。
STAMP(Rastogi 等, 2025)生成数据集的多个改写版本并向公众发布一个。在检测时,它执行配对 t 检验,以检查公共版本是否 consistently 比私有版本获得更低的不确定性。Sander 等(2024; 2025)使用绿/红名单水印方案改写数据集,该方案在生成期间偏向选定 token 的可能性。在检测时,该方法测试下一个 token 预测是否偏向预定义的绿色列表 token,条件是有水印的上下文窗口。这两种方法都需要访问模型内部(如对数概率或下一个 token 分布),因此仅限于开放模型设置。此外,它们的方法不提供检测误报率的理论保证。相比之下,我们的方法嵌入数据集级水印,并启用仅使用模型输出的黑盒访问进行检测,同时为误报率提供无分布和与模型无关的理论保证。

## 4 我们的方法
我们方法的动机是,已知深度学习模型会记忆训练数据集中的虚假特征(Geirhos 等, 2020; Xiao 等, 2020; Yang 等, 2022; Meehan 等, 2023)。我们利用这一想法提出了一种新的数据集水印方案,以检测特定数据集是否已包含在目标模型的训练数据中。
我们的水印方案由两个阶段组成:在嵌入阶段,我们改写数据集以通过扰动词级共现模式向数据集中注入可检测的统计信号。具体而言,我们增加数据集中随机选择的词对集合的共现频率,从而诱导不太可能自然产生的受控虚假相关性。在检测阶段,给定目标模型,我们查询模型以生成文本并测量其输出中的词对共现统计数据。我们测试选定的词对在模型生成的文本中共现是否比未选定的词对更频繁。与零分布的统计显著偏差提供了数据集已包含在模型训练数据中的证据。我们在图 1 中展示了水印工作流程。
### 4.1 水印方案
为了注入词对共现信号同时保留数据集效用,我们设计了一种基于改写的水印方案,包括以下步骤:
- • **采样词对列表:** 我们首先选择在数据集中频繁出现的候选词。对于每个词汇项,我们计算其样本频率,并保留频率排名在 $k_1$ 和 $k_2$ 之间的词。然后从此集合中均匀采样(不放回)词对以形成秘密密钥 $\mathbf{sk}$。
- • **构建词法变体:** 对于每个选定的词,我们使用 ChatGPT 构建一组词法变体,包括同义词和频繁共现的术语。例如,单词“magnitude”对应于 \{measure, scale, intensity, degree, greater, ...\}。
- • **改写以增加共现:** 对于每个词对 $(A, B)$,我们识别包含 $A$ 和 $B$ 变体的样本,并将 $[A, B]$ 添加到候选插入列表中。对于包含 $A$ 但不包含 $B$ 变体的样本,我们将 $[A, B]$ 添加到删除列表中。然后使用 ChatGPT 改写每个样本及其插入和删除候选项。为了保留效用,模型不要求应用所有编辑。我们强调共现是在样本级别定义的:单词可以出现在任意位置,不要求连续。我们将提示放在附录 A 中。
### 4.2 检测
对于检测,我们的关键直觉如下:在零假设下——即当带水印的数据集未包含在模型的训练数据中时——模型的输出不应偏爱任何指定的词对子集。因此,在任何合理大的随机选定的词对子集上计算的共现统计分布应与生成输出中剩余(未选定)词对的分布匹配。我们将此直觉形式化为统计检验框架。
令 $\mathcal{M}$ 表示目标语言模型,令 $s \sim \mathcal{M}$ 表示由 $\mathcal{M}$ 对固定提示和固定长度响应生成的随机文本样本。定义指示随机变量 $X_w = \mathds{1}_{s \sim \mathcal{M}}[w \text{ 出现在 } s 中]$,以及模型输出中 $w_i$ 和 $w_j$ 之间的共现相关性作为相应指示变量之间的 Pearson 相关性:$C_{w_i, w_j} = \mathrm{Corr}(X_{w_i}, X_{w_j})$。注意,对于固定的提示和模型 $\mathcal{M}$,结果的相关矩阵 $C$ 是一个确定性量。令 $\hat{C}$ 为有限采样输出的估计相关性;此外,如果我们从 $\mathcal{M}$ 中无限次采样,$\hat{C}_{w_i, w_j}$ 收敛于 $C_{w_i, w_j}$。
令 $R_{w_i, w_j}$ 表示使用相同定义从参考(非水印)数据集计算的相应词对相关性。我们定义模型生成输出中观察到的共现行为与参考数据集之间的偏差 $A_{w_i, w_j} = C_{w_i, w_j} - R_{w_i, w_j}$。
令 $\mathbf{sk} \subset \mathcal{V} \times \mathcal{V}$ 表示由均匀随机采样的 $d$ 个词对组成的秘密密钥。在模型未在带水印的数据集上训练的零假设下,事件 $A_{w_i, w_j} \geq \tau$ 在 $\mathbf{sk}$ 内外的词对上应以大致相同的频率发生。我们定义检测分数:
$$
\mathrm{score}(\mathcal{M}, \mathbf{sk}, \tau) = \frac{1}{d}\sum_{(w_i, w_j) \in \mathbf{sk}} \mathds{1}[A_{w_i, w_j} \geq \tau] - \frac{1}{T(T-1)-d}\sum_{(w_i, w_j) \notin \mathbf{sk}} \mathds{1}[A_{w_i, w_j} \geq \tau]. \quad (1)
$$
最后,我们通过阈值化检测分数来声明水印:$\mathrm{Detect}(\mathcal{M}, \mathbf{sk}, \tau, t) = \mathds{1}[\mathrm{score}(\mathcal{M}, \mathbf{sk}, \tau) \geq t]$。
#### 误报率
误报...相似文章
语言感知的非失真性LLM水印
介绍了LUNA,一种语言感知的LLM水印方法,实现了跨多语言的非失真嵌入和无模型检测,显著提升了AUROC和困惑度保持。
线性集成消除水印:论LLM中分布扰动的脆弱性
本文揭示了LLM水印的一个基本漏洞:当用户能够访问多个模型时,对其输出分布进行平均会抵消水印扰动,从而规避检测。作者提出了WASH方法,并通过实验证明,对3-5个模型进行平均可将检测z分数抑制在阈值以下,同时提升文本质量。
通过句法可预测性的语言学感知型LLM水印技术
本文介绍了STELA,一个语言学感知的LLM水印框架,通过POS n-gram的句法可预测性来平衡文本质量和检测鲁棒性。该方法无需访问模型logits即可实现公开可验证的水印检测,在类型学多样化的语言(英语、中文、韩语)上展示了优异性能。
PASA:针对语义不变攻击下的大语言模型生成文本的有原则嵌入空间水印方法
本文介绍了 PASA,这是一种针对大语言模型(LLM)生成文本的鲁棒性水印算法,它在语义层面利用潜在嵌入空间运作,以抵抗诸如改写(paraphrasing)之类的语义不变攻击。
轻量级风格一致性分析:用于多媒体内容审核的大语言模型生成文本鲁棒性检测
提出了 LiSCP,一种轻量级的风格一致性分析方法,旨在鲁棒性地检测大语言模型(LLM)生成的文本内容,重点关注在对抗性操纵下特征的稳定性。在域内和跨域检测中取得了优异的性能,并具有显著的鲁棒性。