idSCD：通过语义相关描述符识别训练数据集

arXiv cs.LG 2026/06/01 04:00 论文

摘要

本文介绍了 idSCD，一种使用语义相关描述符来识别数据集是否用于模型训练的白盒方法，在多种设置下均优于现有基线。

arXiv:2605.30462v1 公告类型：新摘要：能否通过训练期间引入的虚假相关性来识别数据集？我们认为，数据集会在模型学习的语义相关结构中留下数据集特有的痕迹：那些在数据集中具有预测性但对底层任务非因果的偶然规律，可能在训练期间被内化。我们利用这一洞察来研究数据集级别的成员推断，超越了依赖置信度分数、损失、边际、生成样本或查询响应等行为或分布证据的现有方法。我们提出了一种基于语义相关描述符（SCD）的白盒语义指纹方法，该方法捕获模型学习的语义相关结构，并使其在不同数据集混合之间具有可比性。在受控的留一数据集诊断中，SCD恢复了数据集特有的变化，并完美区分配对匹配与不匹配的数据集。然后，我们提出了一种实用的基于SCD的成员分数，仅使用模型的SCD和目标数据集的独立SCD，即可测试目标数据集是否为模型训练混合的一部分，无需留一数据集模型。在三个不同的实验设置中，使用自然语言推理、情感分类和医学文本分类的数据集组，我们测试了基于SCD的成员推断在不同程度的数据集分割语义分离和关键词支持下的优势和局限性。平均而言，基于该分数的分类器实现了最高性能和最低标准差，优于黑盒基线RMIA、Attack-P和LiRA，以及白盒基线SIF。这些结果表明，数据集成员可以通过内部语义相关性进行追踪，当数据集组展现出独特的语义特征时，ROC-AUC的最大相对增益超过60%。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:25

# idSCD：通过语义相关性描述符识别训练数据集
来源：https://arxiv.org/html/2605.30462
Andrada Gobeajă 布加勒斯特理工大学 andrada\.gobeaja@stud\.acs\.upb\.ro & Ionuț Hodoroagă¹¹footnotemark:1 布加勒斯特理工大学 ionut\.hodoroaga@stud\.acs\.upb\.ro Elena Burceanu 布加勒斯特理工大学 Bitdefender，罗马尼亚 eburceanu@bitdefender\.com & Marius Leordeanu 布加勒斯特理工大学 罗马尼亚科学院数学研究所 marius\.leordeanu@upb\.ro

###### 摘要

能否根据数据集在训练过程中引发的虚假相关性来识别该数据集？我们认为，数据集会在模型学到的语义相关结构中留下数据集特有的痕迹：那些在数据集中具有预测性但对于底层任务并非因果关系的偶发规律，可在训练过程中被内化。我们利用这一洞见研究数据集级别的成员推断，超越了现有依赖行为或分布证据（如置信度分数、损失、边际、生成样本或查询响应）的方法。我们提出一种基于语义相关性描述符（SCD）的白盒语义指纹方法。SCD 捕捉模型学到的语义相关结构，并使其在不同数据集混合之间具有可比性。在受控的留一数据集诊断中，SCD 能够恢复数据集特有的变化，并完美区分匹配与不匹配的数据集对。然后，我们提出一个实用的基于 SCD 的成员分数，它仅需使用模型的 SCD 和目标数据集的独立 SCD，即可检验目标数据集是否是模型训练混合集的一部分，而无需留一数据集模型。在三个不同的实验设置中（自然语言推理、情感分类和医学文本分类的数据集组），我们测试了基于 SCD 的成员推断在不同语义分离程度和数据集分割间关键词支持下的优势与局限性。平均而言，基于该分数的分类器 `id_{SCD}` 取得了最高性能和最低标准差，优于黑盒基线 RMIA、Attack-P 和 LiRA，以及白盒基线 SIF。这些结果表明，数据集成员身份可以通过内部语义相关性进行追踪，当数据集组呈现不同的语义特殊性时，ROC-AUC 的最大相对增益超过 60%。

## 1 引言

确定某个数据集是否用于训练模型，对于模型审计日益重要。现代模型通常在公开、私有、许可、合成和特定领域数据的混合集上训练，而对这些数据源的可见性往往有限。因此，数据集的使用不仅仅是一个训练细节：它影响隐私、许可、基准污染、可重复性和问责制。先前的工作通过成员推断、数据集级别成员推断、数据集推断、数据溯源和训练数据归因研究了相关问题（Carlini 等人，2022；Maini 等人，2024；Sun 等人，2025）。现有的大多数数据集成员证据都是输出驱动的。方法通常依赖于置信度分数、损失、预测边际、生成样本、查询响应或影响力估计（Carlini 等人，2022；Ye 等人，2022；Cohen 和 Giryes，2022）。这些信号可能有效，但它们主要询问模型是否表现出似乎已经见过某个数据集的行为。这使得它们容易受到以下情况的影响：不同数据集导致相似的输出行为，或者成员证据更多地体现在模型学到的内部结构中，而非体现在预测中。我们提出一个互补的问题：能否根据数据集在训练过程中引发的语义相关性来识别该数据集？

我们的出发点是，数据集在其构建、领域、标注协议和标签表达模式所产生的偶发规律方面存在差异。这些规律可能在数据集中具有预测性，但对于底层任务而言并非因果关系。当模型在多个数据集的混合集上训练时，此类规律可能被内化为虚假的语义相关性，并持续存在于训练后的模型中。因此，即使映射到相同标签空间的数据集，也可能在语义特征与类别的对齐方式上留下不同的指纹。这为数据集级别的成员推断提供了一条不同的路径：与其仅从外部探测模型，不如审计模型内部学到的语义关联结构。我们引入语义相关性描述符（SCD），将其总结为数据集级别的指纹，并允许在不同混合集上训练的模型在共享的相关性空间中进行比较。目标不是解释单个关键词，而是检验目标数据集的全局语义指纹是否存在于被审计的模型中。

首先，在受控的留一数据集诊断中，SCD 恢复了数据集特有的变化，并完美区分匹配与不匹配的数据集对，表明该信号并非通用的训练伪影。其次，在更现实的成员推断设置中，我们使用基于 SCD 的分数，该分数仅需被检查模型和目标数据集的独立参考描述符，避免了留一数据集模型的需要。在自然语言推理、情感分类和医学文本分类任务中，该分类器在平均性能和最低标准差方面优于近期强基线，当数据集分割呈现不同的语义特殊性时，增益最大。

我们的**主要贡献**如下：

1）数据集级别成员推断的语义视角。现有的数据集级别成员方法主要依赖于行为或分布证据，如置信度、损失、预测边际、生成样本或查询响应。我们则将数据集成员问题表述为一个语义追踪问题：能否从目标数据集在训练模型中引发的高层关键词-类别相关性中恢复其存在？

2）用于数据集指纹识别的描述符。我们引入了语义相关性描述符（SCD），记为 `d_{SCD}`，这是一种用于关键词-类别语义相关性映射的紧凑表示。通过共享的关键词词汇表和零填充对齐，SCD 将不同数据集混合集上训练的模型置于相同的相关性空间中，从而能够直接比较它们学到的关联结构。在受控的留一数据集分析中，这种表示完美地区分了匹配与不匹配的数据集对。

3）一种实用的基于 SCD 的成员分数。我们提出一个成员分数，用于检验目标数据集 `D_i` 是否是被检查模型训练混合集的一部分，仅使用模型的 SCD 和 `D_i` 的独立 SCD。与受控分析不同，它不需要留一数据集模型。在自然语言推理、情感分类和医学文本分类的三个不同实验设置中，我们测试了基于 SCD 的成员推断在不同语义分离程度和数据集分割间关键词支持下的优势与局限性。平均而言，由该分数诱导的分类器 `id_{SCD}` 取得了最高性能和最低标准差，优于近期强基线：黑盒方法 RMIA、Attack-P 和 LiRA，以及白盒基线 SIF。

## 2 相关工作

#### 与虚假相关性的关系。

当模型依赖于表面的、非因果的线索时，就会产生虚假相关性，例如视觉任务中的背景、纹理或次要物体（Geirhos 等人，2020；Wang 等人，2021；Yang 等人，2022；Lin 等人，2024），以及语言任务中的关键词（Gururangan 等人，2018；McCoy 等人，2019；Niven 和 Kao，2019；Du 等人，2023），而不是因果概念。这些捷径编码了数据集特有的模式，它们在训练分布之外泛化能力差（Geirhos 等人，2020；Arjovsky 等人，2020），通常在包含熟悉线索的样本上产生更高的置信度，而在分布外或干净的测试样本上产生更大的不确定性（Izmailov 等人，2022；Ye 等人，2024）。这种置信度差距可以被成员推断攻击利用（Nasr 等人，2018；Choquette-Choo 等人，2021）。我们表明，这种捷径模式也可以在数据集级别作为语义相关性指纹恢复，从而实现数据集级别的成员推断。

#### 与成员推断攻击的关系。

成员推断攻击（MIA）确定一个样本是否用于训练机器学习模型（Shokri 等人，2017；Carlini 等人，2022）。它们利用模型在训练样本和未见样本上行为之间的系统性差异，通常根据攻击者访问权限进行分类。白盒 MIA 使用内部信号，如激活、梯度、损失、置信度分数、参数或更新（Papernot 等人，2018；Song 和 Mittal，2020；Rigaki 和 Garcia，2023），包括梯度/激活攻击（Nasr 等人，2019）、贝叶斯最优损失测试（Sablayrolles 等人，2019）、记忆化的特征关联（Leino 和 Fredrikson，2020）和自影响力分数（Cohen 和 Giryes，2022）。黑盒 MIA 仅依赖于查询输出，如标签、置信度分数、logits、熵或损失（Li 和 Zhang，2021；Liu 等人，2022；Carlini 等人，2022；Zarifzadeh 等人，2024），包括影子模型攻击（Shokri 等人，2017）、阈值攻击（Yeom 等人，2018；Salem 等人，2018）、仅标签攻击（Choquette-Choo 等人，2021；Peng 等人，2024）和校准似然比攻击（Carlini 等人，2022；Bertran 等人，2023）。先前的 MIA 使用逐样本信号决定单个示例的成员身份。相比之下，我们研究数据集级别的成员推断：给定一个目标数据集 `D_i`，我们询问 `D_i` 是否出现在训练中，使用数据集引发的语义相关性结构作为成员信号。

#### 与训练数据归因的关系。

训练数据归因方法旨在识别哪些训练数据对模型的输出影响最大。先前的工作通过影响力函数（近似增重或移除训练点的效果）（Koh 和 Liang，2020）、数据模型（从子集成员中学习反事实预测器）（Ilyas 等人，2022），以及可扩展变体如 TRAK（Park 等人，2023）、运行中数据 Shapley（Wang 等人，2025）、TrackStar（Chang 等人，2024）和 AirRep（Sun 等人，2025）来处理这一问题，这些方法通过核近似、单次运行贡献估计、LLM 尺度梯度影响力或学习到的归因表示（Chang 等人，2024）来降低归因成本。我们的方法反而针对数据集级别的成员推断，询问整个数据集是否是模型训练混合集的一部分。我们从关键词-类别相关性映射构建语义相关性描述符（SCD），并将数据集引发的虚假相关性解释为数据集特有的签名。

参考图注：图 1：通过语义相关性指纹进行数据集成员推断。该流程评估数据集特有的规律是否在训练模型的语义相关结构中留下可恢复的痕迹。我们在数据集组内共享的关键词词汇表上提取语义相关性，将其聚合成语义相关性描述符（SCD），并使用基于成员分数的 SCD 分类器来检验目标数据集是否是训练混合集的一部分。

## 3 我们的方法

数据集在其特定构建、领域、标注协议和标签表达模式所产生的偶发规律方面存在差异。在训练过程中，这些规律可以被模型内化为虚假相关性：表面关键词与类别之间的关联，在数据集中具有预测性，但不是底层任务的因果特征。当模型在多个数据集的混合集上训练时，此类数据集特有的相关性可能被吸收到其学到的决策结构中，并在训练后持续存在。我们询问能否从目标数据集在训练中引发的虚假相关性中恢复其存在。我们在一个受控设置中研究这个问题，数据集组 `D_1, ..., D_N` 映射到共享的标签空间 `Y`，并使用固定的模型架构。给定一个目标数据集 `D_i`，我们的目标是推断 `D_i` 是否出现在训练混合集中。为了形式化这个问题，让 `U` 表示与数据集集合关联的全局关键词词汇表。对于每个训练过的模型 `m`，我们构建一个关键词-类别相关性矩阵：

`C^(m) ∈ R^(|U| × |Y|)`，其中每个条目 `C^(m)_{u,y}` 量化模型 `m` 中关键词 `u ∈ U` 与标签 `y ∈ Y` 之间的相关性强度。我们不是解释单个关键词-类别相关性，而是将完整的相关性映射视为数据集级别的指纹，并通过其数据集特有的虚假相关性模式来推断 `D_i` 是否存在于训练混合集中。

### 3.1 从语义相关性到数据集指纹

对于每个数据集组，我们训练三种模型变体，旨在使数据集特有的贡献

idSCD：通过语义相关描述符识别训练数据集

相似文章

利用记忆引导的数据集去偏方法缓解虚假相关性

DataDignity：用于大型语言模型的训练数据归属

超越语义相似度：面向企业信用承保的两阶段非参数检索工作流

SOCO：视觉基础模型中语义对象对应性的基准测试

MARCO：探索语义对应中未见空间的航行器

提交意见反馈