MGI: Member vs Generated Inference

arXiv cs.LG 2026/06/24 04:00 论文

摘要

介绍了 Member vs Generated Inference (MGI) 任务，用于区分生成模型中的训练成员与生成输出，并提出了 Data Circuit Breaker (DCB)，一种结合自编码器和潜在生成器信号的三阶段方法，在自回归和扩散模型中均优于现有方法。

arXiv:2606.23872v1 Announce Type: new 摘要：随着生成模型越来越多地生成与人类创作内容难以区分的样本，确定给定数据点属于模型自然训练集还是由模型自身生成变得困难，尤其是当模型记忆并复制训练数据时。我们将这一挑战形式化为 Member vs Generated Inference (MGI)：给定一个样本和一个目标生成模型，推断该样本是真实的训练成员还是该模型的生成输出。聚焦于图像生成，我们表明现有的成员推理方法系统性地将生成样本误分类为训练成员，而基于归因的方法则常常将真实成员误分类为生成样本。这种失败源于两种方法都依赖于似然相关信号，而这些信号对于训练样本和模型自身输出同样升高。为了解决 MGI，我们提出了 Data Circuit Breaker (DCB)，一种三阶段方法，结合生成模型的自编码器和潜在生成器的互补信号来区分训练成员和生成样本。在多种生成模型（包括图像自回归和扩散模型）中，DCB 一致地解决了成员推理和归因方法的缺陷，即使在模型生成训练样本的近似副本时也能保持有效，并泛化到具有挑战性的模型衍生场景（即基于生成数据训练新模型）。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:49

# MGI：成员与生成样本推断 来源：https://arxiv.org/html/2606.23872  
Bihe Zhao, Michel Meintz, Juangui Xu, Franziska Boenisch, Adam Dziedzic  
{bihe.zhao, michel.meintz, juangui.xu, boenisch, adam.dziedzic}@cispa.de  
CISPA 亥姆霍兹信息安全中心  

###### 摘要  
随着生成模型产出的样本越来越难以与人类创作的内容区分，判断给定数据点是否属于模型的自然训练集还是由模型自身生成变得困难，尤其是当模型记忆并复现训练数据时。我们将这一挑战形式化为“成员与生成样本推断”（MGI）：给定一个样本和一个目标生成模型，推断该样本是真正的训练成员还是该模型生成的输出。聚焦于图像生成，我们发现现有的成员推断方法会系统性地将生成样本误分类为训练成员，而基于归因的方法则经常将真正的成员误分类为生成样本。这种失败源于两类方法都依赖似然相关信号，而这些信号在训练样本和模型自身输出上同样偏高。为了解决MGI问题，我们提出“数据断路器”（DCB）方法，这是一个三阶段方法，它结合生成模型的自编码器和潜在生成器的互补信号来区分训练成员与生成样本。在多个生成模型（包括图像自回归模型和扩散模型）上，DCB持续克服了成员推断和归因方法的缺陷，即使在模型复现出训练样本的近似副本时也保持有效，并且泛化到具有挑战性的“模型衍生”场景——即新模型在生成数据上训练。  

## 1 引言  
请参见图注  
图1：新任务“成员与生成样本推断”（MGI）的概览。  
核心挑战是将真正的训练成员身份与模型生成区分开来，即使在由生成数据训练的模型链中也是如此。设 N = N_M ∪ N_N 表示一个自然数据集，其中 N_M ∩ N_N = ∅。生成模型 M1 在成员集 N_M 上训练，而 N_N 则作为保留的自然非成员数据。训练后，M1 产生一个生成数据集 G = G_M ∪ G_N，其中 G_M ∩ G_N = ∅。这里，G_M 和 G_N 均由 M1 生成，因此服从相同的生成数据分布，但在下游场景中扮演不同角色：G_M 用于训练新模型 M2，而 G_N 被保留作为 M2 的生成非成员数据。因此，新模型 M2 是在生成成员 G_M 上训练的，而不是自然成员 N_M。新模型 M2 又会生成一个新的数据集 G′ = G′_M ∪ G′_N，其中 G′_M ∩ G′_N = ∅；G′_M 中的样本可能用于训练进一步的下游模型（如 M3），而 G′_N 保持保留。在此设定下，MGI 询问给定样本应归因于训练数据还是模型生成数据。对于原始模型 M1，任务是在 {N_M, N_N, G} 中区分，将真实的自然训练成员 N_M 从自然非成员 N_N（如经典成员推断任务）以及模型 M1 的生成样本 G 中分离出来。对于衍生模型 M2，任务变为：在 {G_M, G_N, G′} 中区分，将生成训练成员 G_M 从生成非成员 G_N 和模型 M2 的生成样本 G′ 中分离出来。我们还可以将自然样本 N 作为 M2 的非成员数据，但 G_N 代表了非成员数据中最困难的情况。  

生成模型现在在海量互联网数据上训练，以前所未有的速度生成高质量样本。这些模型也会无意中记忆一些个体的训练输入，并在之后将其作为输出重现[11, 3]。生成模型的输出与真实数据难以区分，这模糊了模型训练数据与生成数据之间的界限。我们将这一挑战形式化为“成员与生成样本推断”（MGI）任务：给定一张图像和一个目标生成模型，判断该样本是该模型的真实训练成员，还是同一模型的生成输出。我们在图1的概览中展示了MGI任务在“直接训练”和“模型衍生”两种场景下的情况。在直接训练场景中，模型 M1 的目标是区分自然训练成员 N_M 与模型生成的图像 G。即使在这一看似简单的场景中，MGI 也从根本上比标准成员推断更困难：生成图像在与训练成员相同的潜在分布下优化，导致其基于似然的分数严重重叠，我们将在第4节中展示。我们进一步探索一个更具挑战性和实践相关性的“模型衍生”场景，其中 M1 生成的样本（可能发布在网上，然后从互联网收集，并被）用于训练后续模型版本 M2。在这种机制下，成员不再纯粹是自然样本，简单地将自然与生成内容区分已不够。在 M2 场景中，成员推断和归因方法都会进一步退化，因为生成训练数据引入了成员身份与生成信号之间叠加的模糊性。  

聚焦于图像生成，我们首先展示现有的成员推断方法[11, 29, 34]不足以解决MGI：它们被设计用来区分训练成员与保留的自然数据，因此倾向于错误地将模型生成（但非成员）的样本标记为成员。相反，旨在判断样本是否由特定生成模型生成的归因方法[4]也不足够，常常将训练成员错误地标记为生成样本。这两种失败都源于相同的基本原因：新型强大生成模型的输出直接来源于生成模型自身的训练样本。因此，基于似然或输出概率的信号对真实成员和模型自身输出都同样高，打破了先前方法所依赖的假设。  

为了解决现代图像生成模型的MGI挑战，我们提出了一种新方法——数据断路器（DCB）。[1] 数据断路器是一种电气安全装置，用于保护电路免受超过设备承受能力的电流造成的损坏。在我们的场景中，DCB可以通过防止新模型在其自身生成的大量数据上训练，从而保护它们免于性能退化。  
我们的DCB方法从整体上处理生成流水线，而不仅仅关注潜在生成器。关键洞察在于，虽然潜在生成器对成员和生成样本产生高分，但自编码器引入了可量化的伪迹：生成样本由于经过了完整的编码-解码流水线，在自编码器下表现出比自然数据点更低的重建误差和量化误差。DCB利用这一点，分三阶段进行：(1) 基于自编码器的过滤步骤，识别生成样本，将其与非生成数据点分离；(2) 对非生成样本使用潜在生成器进行成员推断，此时成员分数较高这一标准假设得以恢复；(3) 跨生成器归因步骤，比较多个模型版本下的条件对数概率，以区分不同生成器产生的生成样本。这些阶段共同使DCB能够解决MGI，即使在训练数据记忆的最困难情况下也有效。  

总体而言，我们的贡献如下：  
1. **新任务**。我们引入了“成员与生成样本推断”（MGI）任务，询问给定样本是生成模型的真实训练成员，还是同一模型生成的输出示例。  
2. **先前工作的局限性**。我们展示了现有方法不足以解决MGI：成员推断方法系统性地将生成样本误分类为成员，而归因方法则常常错误地将训练成员标记为生成样本。  
3. **方法**。我们提出了DCB（数据断路器），一个三阶段流程，利用自编码器自洽性过滤生成样本、潜在生成器分数进行成员推断，以及跨生成器概率差异来追踪跨模型版本的数据回路。  
4. **记忆鲁棒性**。我们展示了DCB即使在逐字记忆的情况下也保持有效，区分原始训练样本与其复述（近似副本）的生成对应物。

## 2 背景与相关工作  
**图像生成模型（IGMs）**。现代图像生成模型（IGMs）的两个主导家族是扩散模型（DMs）和图像自回归模型（IARs）。这两个家族中的许多最先进IGMs都在**潜在空间**中生成图像：编码器首先将高分辨率图像从像素空间映射到潜在表示，解码器将合成的潜在表示映射回像素。尽管它们共享潜在生成流水线，但DMs和IARs在表示和采样数据分布的方式上有根本不同。DMs通过迭代去噪定义了一个**隐式**生成过程，而IARs则通过顺序预测令牌概率**显式**地对似然进行因式分解，类似于大语言模型（LLMs）。  

**扩散模型（DMs）**。DMs通过学习到的去噪过程，将高斯噪声转换为结构化样本来合成图像[21, 8]。生成从 x_T ~ N(0, I) 开始，进行 T 步，迭代地预测噪声 ε_G(x_t, t, c)（t = T, ..., 1），然后将其去除。在条件设置中（例如，类别到图像或文本到图像），去噪器以辅助输入 c 为条件，c 通常是由预训练编码器（如CLIP[14]）产生的文本嵌入。条件通过交叉注意力层[25]注入。  

**图像自回归模型（IARs）**。IARs通过使用基于下一个令牌的自回归模型逐个预测离散潜在令牌来生成图像，直接对潜在序列上的因式分布进行建模。典型的IAR包括：(1) 矢量量化VAE（VQ-VAE），将图像编码为来自码本的离散表示；(2) 自回归变换器，将码本表示建模为令牌并顺序采样。例如，LlamaGen[22]使用基于VQ的自编码器产生量化特征，然后应用Llama风格的变换器自回归生成令牌。VAR进一步引入了多尺度VQ表示以实现从粗到细的合成[23]。随机自回归模型（RARs）通过使用随机令牌顺序和基于退火的训练过程来泛化下一个令牌预测[31]。  

**成员推断攻击（MIA）**。MIA旨在判断给定数据点是否属于模型的训练集[19, 18]。MIA方法用于审计模型的隐私泄露并实证检验差分隐私保证[12, 17]。近期针对IGMs的MIA工作[11, 29, 34]表明，比较图像的条件生成与无条件生成提供了判断模型是否在该图像上训练（成员）或未训练（非成员）的有效信号。因此，攻击只考虑区分训练样本与测试样本的问题，而不考虑目标IGMs生成的数据。通过利用阴影模型（在相同分布的数据上训练）可以改进MIA中的信号。LiRA[2]使用阴影模型估计样本在成员和非成员上的损失分布，而RMIA[33]则比较目标样本与参考群体样本的似然比。  

**图像归因方法**。与MIA相反，图像归因方法旨在判断给定图像是否由模型**生成**，这对于追踪生成内容并防止导致模型崩溃的数据回路至关重要[1, 20]。类似于针对图像自回归模型的MIA[11, 29]，PRADA[4]表明概率比也可携带关于图像是否生成的信息，即是否是模型学习分布中的成员，或者是否由目标模型生成。然而，PRADA方法的评估仅限于区分生成样本与保留的测试样本，这比我们新定义的设定（区分生成输出与训练成员样本）要简单得多。此外，PRADA仅考虑IARs，并完全依赖图像潜在生成器返回的每个令牌概率。因此，它没有利用模型自编码器中可用的信息信号，例如生成样本与自然（如训练或测试）样本之间的量化损失[35]，从而留下了IGMs中可用的部分成员相关信息未被利用。  

**数据记忆**。记忆描述了模型从其训练数据中保留信息的程度。它可以是**非故意的**，即模型存储了可被后续复现或提取的个体示例细节[3, 11]。**有意的**记忆发生在模型编码支持泛化的一般性、可复用模式时[7, 27]。对于数据溯源而言，

MGI: Member vs Generated Inference

相似文章

MIND：用于生成模型评估的 Monge 初始距离

MELD：用于AI生成文本的多任务均衡学习检测器

离散扩散语言模型上的成员推断攻击

BrainG3N: 一种用于可控3D脑部MRI生成的双用途分词器

增强无需训练的无限帧生成以实现一致的长视频

提交意见反馈