观点：术语“机器遗忘”在大型语言模型中过度使用

arXiv cs.CL 2026/06/29 04:00 论文

machine-unlearning llm terminology position-paper dataset-deletion privacy

摘要

本立场文件认为，术语“机器遗忘”在大型语言模型研究中被过度使用，主张采用更严格的术语，将其与数据集定义的删除和重训练等价性保证挂钩。

arXiv:2606.27379v1 公告类型：新摘要：由于监管删除义务、版权/许可争议以及安全或产品政策要求，大型语言模型越来越面临“遗忘”训练数据、知识或行为的压力。本立场文件认为，在大型语言模型研究中，“机器遗忘”作为一个术语被过度使用，应保留给数据集定义的删除：移除精确指定的遗忘集对训练的影响，使所得模型与在不含该数据的情况下重新训练得到的模型大致不可区分。我们认为，当前许多被标记为“遗忘”的任务（例如，拒绝有害请求、去除实体/知识或针对性压制）追求的是不同的、往往依赖于政策的目标，因此需要不同的术语和基线（例如，对齐、压制、编辑、混淆）。我们进一步指出，这种混淆并非表面问题：由于论文在相同标签下做出不同的隐含保证，指标和基准常常被用于其预期范围之外，奖励表面上的非披露（例如，低ROUGE/遗忘精度），即使未测试重训练等价性且衍生能力仍然存在。最后，我们呼吁采用更严格的术语，与明确的保证和参考模型相关联，并进行与声明目标相匹配的评估。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:22

# 立场：“机器遗忘”一词在LLM研究中被滥用
来源：https://arxiv.org/html/2606.27379
###### 摘要

大型语言模型越来越需要“遗忘”训练数据、知识或行为，原因包括监管删除义务、版权/许可纠纷以及安全或产品政策要求。本立场论文认为，*机器遗忘*在LLM研究中作为一个术语被滥用，应仅保留用于数据集定义的删除：移除精确指定的遗忘集的训练影响，使得结果模型与在没有该数据的情况下重新训练的模型（近似）不可区分。我们主张，当前许多被标记为“遗忘”的任务（例如，拒绝有害请求、实体/知识移除或针对性压制）追求不同的、通常依赖于政策的目标，因此需要不同的术语和基线（例如，对齐、压制、编辑、混淆）。我们进一步论证，这种混淆不仅仅是表面问题：由于论文在相同标签下做出不同的隐含保证，指标和基准测试经常在其预期范围之外被重用，奖励表面上的非披露（例如，低ROUGE/遗忘准确率），即使重新训练等效性未经测试且衍生能力依然存在。我们最后呼吁使用更严格的术语，明确关联到显式保证和参考模型，并采用与声称目标相匹配的评估。

机器学习，ICML

## 1 引言

基础模型（Achiam 等，2023 (https://arxiv.org/html/2606.27379#bib.bib1)；Liu 等，2024a (https://arxiv.org/html/2606.27379#bib.bib91)；Comanici 等，2025 (https://arxiv.org/html/2606.27379#bib.bib90)）是在混合了许可、同意和合同约束的大型异构语料库上训练的。随着这些模型在监管和商业环境中部署，服务提供商越来越面临要求*移除*特定训练数据影响的需求，其动机包括隐私删除义务（例如，被遗忘权（欧洲议会和欧盟理事会，2016 (https://arxiv.org/html/2606.27379#bib.bib92)））、版权和许可纠纷（*Tremblay v. OpenAI, Inc.*，2023 (https://arxiv.org/html/2606.27379#bib.bib9)；*Kadrey v. Meta Platforms, Inc.*，2023 (https://arxiv.org/html/2606.27379#bib.bib10)；Grynbaum 和 Mac，2023 (https://arxiv.org/html/2606.27379#bib.bib8)）以及企业数据治理要求（Voigt 和 Von dem Bussche，2017 (https://arxiv.org/html/2606.27379#bib.bib7)）。这些压力加剧了人们对*机器遗忘*作为移除选定训练数据影响的一种原则性方法的兴趣。

在经典的机器学习表述中，*机器遗忘*是一个数据集定义的删除问题。给定训练集 \(D\) 和一个精确指定的*遗忘集 \(F \subset D\)*，目标是生成一个更新后的模型，其行为与从头在 \(D \setminus F\) 上重新训练的反事实模型（近似）不可区分（Ginart 等，2019 (https://arxiv.org/html/2606.27379#bib.bib89)；Guo 等，2020 (https://arxiv.org/html/2606.27379#bib.bib82)；Neel 等，2021 (https://arxiv.org/html/2606.27379#bib.bib94)；Ullah 等，2021 (https://arxiv.org/html/2606.27379#bib.bib95)；Izzo 等，2021 (https://arxiv.org/html/2606.27379#bib.bib80)）。这个定义同时固定了*目标*和*基线*：它要求移除一个具体数据子集的训练影响，并通过与在 \(D \setminus F\) 上重新训练的模型（或一个原则性的代理）的相似性来判断成功，而不是通过输出是否满足某个选择的政策。

然而，在最近的LLM研究中，“遗忘”这个词经常被用于更广泛的目标，这些目标共享一个高层次动机（“让模型忘记X”），但并不符合基于重新训练的保证。例子包括防止有害行为、压制特定知识、移除实体或阻止查询类别（Li 等，2024 (https://arxiv.org/html/2606.27379#bib.bib44)；Jin 等，2024 (https://arxiv.org/html/2606.27379#bib.bib71)；Choi 等，2025 (https://arxiv.org/html/2606.27379#bib.bib100)）。这些方向在实践中很重要，特别是对于安全和产品政策，但它们通常针对*行为约束*而非数据集定义的删除。当这些目标与机器遗忘在同一术语下讨论时，声称和评估变得难以解释：读者无法判断一个方法是旨在匹配在 \(D \setminus F\) 上重新训练，还是仅仅改变系统在特定提示协议下的输出。

一个核心原因是，许多不合规的“遗忘”请求本质上是*政策定义的*并且依赖于应用（Li 等，2024 (https://arxiv.org/html/2606.27379#bib.bib44)；Jin 等，2024 (https://arxiv.org/html/2606.27379#bib.bib71)；Luo 等，2025 (https://arxiv.org/html/2606.27379#bib.bib83)）。例如，“遗忘有害行为”（例如，炸弹制造协助）需要选择一个边界：系统应该只阻止逐步武器化指令，还是也阻止广泛相关的化学知识？同样，“遗忘知识”在蕴含关系下也是模糊的：如果目标是“巴黎是法国的首都”，系统是否也应该避免蕴含陈述，如“埃菲尔铁塔在法国的首都”？实体移除同样定义不明确：“遗忘斯蒂芬·金”可能指传记事实、他的作品、引文或衍生讨论（例如，改编）。这种主观性可能使得精确指定遗忘集 \(F\) 变得困难，但这不是核心问题。更根本的是，目标是由应用政策定义的（即，模型应该或不应该做什么），所以问题本质上关乎政策规范和合规性，而非数据集定义的删除。

数据集定义的删除与政策定义的行为控制之间的差距在*衍生能力*上最为清晰，其中训练影响不仅限于记忆遗忘集（Thaker 等，2025 (https://arxiv.org/html/2606.27379#bib.bib97)；Jia 等，2025 (https://arxiv.org/html/2606.27379#bib.bib96)）。例如，假设一个模型在未经授权的合成数学推理轨迹上训练，后来被要求“遗忘”它们。如果评估只检查模型是否未能回答来自该数据集的相同问题，那么一个简单的非披露策略可能看起来成功。相关的问题是，未经授权的数据是否贡献了一种*可迁移的*推理能力：如果模型仍然能解决广泛类别的具有挑战性的数学问题，那么即使直接复现被阻止，影响可能仍然存在。在重新训练不可区分性下，只有当在 \(D \setminus F\) 上重新训练的模型也实现了这种能力时，维持这种能力才是可接受的；否则，该能力应该与引发它的影响一起消失。

这种术语歧义也直接影响基准测试和指标。许多评估将“遗忘”操作化为在指定探测集上的输出失败，例如，更低的问答准确率、更低的与参考答案的ROUGE值，或更低的目标短语似然（Jin 等，2024 (https://arxiv.org/html/2606.27379#bib.bib71)；Yuan 等，2025 (https://arxiv.org/html/2606.27379#bib.bib47)；Xu 等，2026 (https://arxiv.org/html/2606.27379#bib.bib88)）。这些测量对于非披露可能是有用的诊断，但它们不是重新训练等效性的证据。它们也通常是主观的（取决于问答构建和提示上下文），并且*更低并不总是更好*：在 \(D \setminus F\) 上重新训练的模型可能仍然产生部分正确或上下文合理的答案（因此ROUGE非零），而全面拒绝可以将ROUGE驱动到零，同时偏离重新训练的参考。因此，基准测试增加了保留/效用约束（Maini 等，2024 (https://arxiv.org/html/2606.27379#bib.bib31)；Shi 等，2025 (https://arxiv.org/html/2606.27379#bib.bib70)；Chang 和 Lee，2025 (https://arxiv.org/html/2606.27379#bib.bib99)），但这些也编码了关于什么算效用以及什么权衡是可接受的应用依赖选择。没有显式的重新训练参考，评估可能无意中优先考虑输出控制而非移除训练影响。

在本立场论文中，我们主张解决这种混淆需要更严格的术语，明确关联到显式保证和基线。我们将机器遗忘形式化为针对精确定义遗忘集的重新训练不可区分性，按意图组织其他常见的“遗忘”用法，并解释为什么基准设计必须反映这种区别，特别是在存在衍生能力的情况下。

立场。“机器遗忘”应该意味着针对精确定义遗忘集的重新训练不可区分性；其他安全或应用驱动的“遗忘”目标是不同的问题，应该使用不同的术语。

## 2 文献中称为“遗忘”的内容：定义及按意图分类

术语*遗忘*现在在LLM研究中被用来描述一系列广泛的干预措施，这些措施共享一个表面动机——使某些信息、行为或训练影响“消失”——但在预期保证上存在显著差异。这种术语过载之所以重要，是因为不同的意图需要不同的基线和不同的评估：旨在*阻止披露*的方法在标准“遗忘集”测试下可能看起来成功，而未能移除遗忘集的*训练影响*。在本节中，我们 (i) 给出机器遗忘的*形式化定义*（我们主张应保留的用法），以及 (ii) 按意图将术语的其他常见用法组织成*高层次类别*，而不试图进行严格的、互斥的形式化。即，“遗忘”不等于让模型拒绝某些问题，也不等于降低特定字符串的似然，也不等于用替换答案覆盖原始答案。

### 2.1 机器遗忘：数据集定义的删除保证

#### 设置。

设 \(D\) 为训练数据集，\(F \subseteq D\) 为*遗忘集*，其*训练影响*将被移除。定义保留集为 \(R := D \setminus F\)。令 \(\mathsf{Train}(\cdot)\) 表示（随机化的）训练过程，并记 \(\Theta_S \sim \mathsf{Train}(S)\) 为在数据集 \(S\) 上训练得到的随机模型。一个遗忘过程是一个（可能随机化的）过程，它接受一个训练好的模型和一个遗忘集，并返回一个更新后的模型：

\[
\Theta' \leftarrow \mathsf{Unlearn}(\Theta_D, F).
\]

非正式地，机器学习旨在移除在 \(F\) 上训练的影响，就像模型从未见过它一样。

###### 定义 2.1（精确机器遗忘（Izzo 等，2021 (https://arxiv.org/html/2606.27379#bib.bib80)））。

\(\mathsf{Unlearn}\) 实现*精确机器遗忘*（相对于 \(\mathsf{Train}\)），如果对于所有 \(D\) 和所有 \(F \subseteq D\)，

\[
\mathcal{L}(\Theta') = \mathcal{L}(\Theta_R), \quad \text{其中 } \Theta_R \sim \mathsf{Train}(R),
\]

并且 \(\mathcal{L}(\cdot)\) 表示模型参数（以及随机化训练结果）上的诱导分布。

在实践中，精确遗忘是一个非常强的要求，对于大规模模型极少能够实现。因此，大多数工作采用宽松的遗忘概念，允许遗忘模型与重新训练基线*近似*不可区分。

###### 定义 2.2（近似机器遗忘（一般形式））。

固定一个散度/度量 \(\mathrm{Dist}\)（在分布之间）和一个容差 \(\tau \geq 0\)。\(\mathsf{Unlearn}\) 实现*\((\mathrm{Dist}, \tau)\)-近似机器遗忘*，如果对于所有 \(D\) 和 \(F \subseteq D\)，

\[
\mathrm{Dist}\!\left(\mathcal{L}(\Theta'), \, \mathcal{L}(\Theta_R)\right) \leq \tau.
\]

这里，\(\mathrm{Dist}\) 可以在参数空间中定义，也可以在*行为空间*中定义（例如，在将模型与提示分布和解码规则组合之后）。我们强调，*多种* \(\mathrm{Dist}\) 的选择都是合理的；关键在于基线始终是在 \(D \setminus F\) 上重新训练。

一种广泛使用的宽松形式（受差分隐私启发（Dwork，2006 (https://arxiv.org/html/2606.27379#bib.bib98)））通过 \((\varepsilon, \delta)\)-不可区分性定义接近性。对于随机变量 \(X\) 和 \(Y\)，记 \(X \approx_{\varepsilon,\delta} Y\)，如果对于所有可测集 \(S\)，

\[
\Pr[X \in S] \leq e^{\varepsilon} \Pr[Y \in S] + \delta
\]
\[
\Pr[Y \in S] \leq e^{\varepsilon} \Pr[X \in S] + \delta.
\]

那么 \(\mathsf{Unlearn}\) 是*\((\varepsilon, \delta)\)-近似*的，如果 \(\Theta' \approx_{\varepsilon,\delta} \Theta_R\)。这是一个有原则且受欢迎的选择，但*不是*形式化近似遗忘的*唯一*方式。

改变模型行为或输出的干预措施可以实现许多实际目标，但*不等同于*上面定义的机器遗忘。机器遗忘的定义性标准是移除*精确指定的*遗忘集 \(F\) 的影响，通过（近似）与反事实模型（即在 \(D \setminus F\) 上重新训练的模型）在显式距离概念下的不可区分性来操作化。

### 2.2 LLM论文中“遗忘”的其他常见用法：按意图分类

我们现在总结几种常见的意图，这些意图在LLM文献中经常被标记为“遗忘”。这些类别故意是*高层次*的，并且*互不排斥*：单个系统可能结合多种机制（例如，压制风格的微调加上拒绝政策），并且压制和对齐之间的界限可能是模糊的。我们的目标不是制定一个完美的划分，而是阐明区分这些工作与第2.1节中定义的机器遗忘的*主要目标*。

#### 输出似然压制。

面向压制的*方法旨在降低模型生成与指定遗忘目标相关内容的倾向。虽然压制可以通过多种方式实现，但我们关注那些*显式修改模型在选定输出上的似然*的方法（Welleck 等，2020 (https://arxiv.org/html/2606.27379#bib.bib48)）。常见的实例包括基于梯度的更新，如梯度上升 (GA)（Thudi 等，2022 (https://arxiv.org/html/2606.27379#bib.bib49)；Jang 等，2023 (https://arxiv.org/html/2606.27379#bib.bib35)；Yao 等，2024 (https://arxiv.org/html/2606.27379#bib.bib19)；Zhang 等，2024b (https://arxiv.org/html/2606.27379#bib.bib50)）和负偏好优化 (NPO)（Zhang 等，2024a (https://arxiv.org/html/2606.27379#bib.bib36)；Fan 等，2024 (https://arxiv.org/html/2606.27379#bib.bib38)；Wang 等，2025 (https://arxiv.org/html/2606.27379#bib.bib40)）。这些方法可以有效地将概率质量从特定提示下的受限标记或响应中移开，但它们主要是在输出分布层面运作。因此，一般来说，它们不能保证与未看到该数据的重新训练模型不可区分。

#### 内部表示混淆。

面向混淆的*方法旨在通过诱导混乱，例如低置信度或高熵行为，使模型在目标输入上*不可靠或不提供信息*。这通常通过修改模型的隐藏表示或注意力模式来实现，而不是直接修改输出似然。混淆

观点：术语“机器遗忘”在大型语言模型中过度使用

相似文章

MLUBench: 多模态大语言模型终身遗忘评估基准

智慧在于知道何时沉默：通过注意力转移实现无幻觉的大语言模型遗忘

模型遗忘目标因语言功能不同而异

吐槽：别再说什么LLM只是“下一个词预测器”了。

基于边际自校正的大规模快速遗忘

提交意见反馈