原生可遗忘的大语言模型

arXiv cs.LG 2026/06/15 04:00 论文

unlearning large-language-models machine-learning ai-safety privacy data-attribution disentanglement

摘要

该论文提出了NULLs（原生可遗忘的大语言模型），这是一种模型类别，它将特定来源的贡献隔离到稀疏激活的sinks中，同时共享骨干神经元，从而无需重新训练即可干净地遗忘单个数据源，并保持通用语言能力。

arXiv:2606.13873v1 公告类型：新摘要：遗忘旨在移除特定训练数据源的影响，但这一目标颇具挑战性，因为不同数据源的贡献在模型中相互纠缠。将数据源贡献隔离到不相交的参数中可以简化移除过程，但会阻碍跨数据源的联合学习。我们提出了NULLs（原生可遗忘的大语言模型），这是一种通过训练一组共享骨干神经元以及一个稀疏激活的sinks池来同时满足隔离特定数据源贡献和跨数据源联合学习这两个对立目标的模型类别。在训练过程中，特定于某一数据源的信息自然地集中在其sinks中，而跨数据源共享的信息则积累在骨干中。在部署时，通过禁用相应sinks即可遗忘该数据源，无需梯度更新也无需访问保留数据。我们证明，NULLs可扩展至维基百科约600万篇文章，将每篇文章隔离为独立数据源。遗忘单篇文章会移除其特定知识，同时保留与语义相关文章共享的事实，其结果与从头重新训练高度吻合。我们注意到，使用NULLs进行遗忘也具有鲁棒性：在遗忘《哈利·波特》书籍的案例研究中，NULLs能够抵抗对抗性提取以及逆转事后遗忘的重新学习。最后，NULLs保持了通用语言能力，在下游基准测试中与标准Transformer相匹配。这些结果共同表明，数据源级别的遗忘不必是事后补救。它可以在LLM训练中原生实现，同时保留共享表示学习的优势。

查看原文

查看缓存全文

缓存时间: 2026/06/15 09:08

# 原生可遗忘大语言模型
来源：https://arxiv.org/html/2606.13873
###### 摘要

遗忘（Unlearning）旨在消除特定训练数据源的影响，但这已被证明具有挑战性，因为不同数据源的贡献在模型内部相互纠缠。将各数据源的贡献隔离到不相交的参数上会使删除更容易，但这也会阻碍跨数据源的联合学习。我们提出 NULLs（Natively Unlearnable LLMs，原生可遗忘大语言模型），这是一种模型类别，通过训练一组共享骨干神经元以及一个稀疏激活的记忆池（sink pool），同时满足了隔离特定数据源贡献和跨数据源联合学习这两个看似矛盾的目标。在训练过程中，特定于某数据源的信息自然集中在其记忆池中，而跨数据源共享的信息则累积在骨干网络中。部署时，只需禁用该数据源对应的记忆池即可实现遗忘，无需梯度更新，也无需访问保留数据。我们证明 NULLs 可扩展到 Wikipedia 约 600 万篇文章，将每一篇视为独立的数据源。遗忘单篇文章会移除其特有的知识，同时保留与语义相关文章共享的事实，其结果与从头重新训练高度吻合。我们注意到，基于 NULLs 的遗忘也具有鲁棒性：在遗忘《哈利·波特》系列的案例研究中，NULLs 抵御了对抗性提取和能够逆转事后遗忘的重新学习。最后，NULLs 保留了一般的语言能力，在下游基准测试中与标准 Transformer 性能相当。这些结果共同表明，数据源级别的遗忘不必是事后补救，它可以原生地构建到大语言模型训练中，同时保留共享表示学习的优势。

## 1 引言

大语言模型（LLMs）在网页规模的数据上进行训练 [bommasani2022opportunitiesrisksfoundationmodels]，这些数据包括受版权保护的材料 [cooper2025filescomputercopyrightmemorization]、个人信息 [carlini2021extractingtrainingdatalarge] 以及受监管内容 [fi17040151]。其中任何部分都可能需要在后续被移除或说明以满足法律要求。但标准训练将所有数据源纠缠在一起：梯度下降将它们混合到一组单一的共享权重中，每个参数都可能受到多个数据源的影响。这种纠缠阻碍了作用在单个数据源层面的操作。例如，*遗忘*需要从训练好的模型中擦除某个数据源的影响，而*数据归因* [li2023surveylargelanguagemodels] 旨在将模型输出追溯到负责的数据源。两者都需要恢复单个数据源的贡献，而这些信息通常在训练过程中丢失。

我们聚焦于*遗忘*：这是一个任务，要求在不从头重新训练的情况下，从已部署模型中移除目标数据源的影响。这涉及*两个看似矛盾的要求*：删除在每项数据源的贡献与其他部分*解耦*时最干净，而泛化则依赖于模型跨数据源*联合学习*。现有的遗忘方法只满足其中之一。最常见的是*事后*方法，在模型已训练完成后应用修正更新 [zhang2024npo; chang-etal-2024-localization]。这种方法通过对训练过程不施加任何约束来保持跨数据源的联合学习，但目标数据源的影响仍然纠缠在共享权重中，无法被干净地移除。结果，事后遗忘常常降低无关能力，或者不能完全移除目标数据源的影响 [patil2023sensitiveinformationdeletedllms; maini2024tofu]。

另一种范式是*为每个数据源训练单独的模型或模块*，然后合并它们 [shi2025flexolmo; gururangan2021demixlayersdisentanglingdomains]。这种方式通过构造确保每个数据源的贡献相互解耦，便于直接遗忘。然而，这些方法阻止了跨数据源的联合学习，牺牲了在多样化数据上训练带来的泛化优势。当数据源定义得非常细粒度时，这一点尤为局限，例如，上百万篇文章或用户提供的内容中的任何一篇都可能需要被遗忘。

**原生可遗忘大语言模型（NULLs）。** 我们开发了 NULLs，这是一种模型类别，满足上述看似矛盾的要求：单个模型跨所有数据源*联合学习*，同时将各数据源特有的贡献解耦以便轻松移除。

NULLs 训练简单，并且不依赖数据源的定义方式。数据源可以是一个来源单位，例如文档、出版商或主题相关的文档簇。每个数据源被分配一个稀疏掩码，作用于一个记忆池（sink pool），掩码由其身份决定性地生成。训练过程与标准训练相同，只是每个文档激活一组共享的骨干神经元以及其数据源的记忆池。这仅需要在 MLP 激活后进行额外的逐元素乘法来应用掩码。由于数据源被定位到其掩码而不是一组不相交的参数，NULLs 可以对组合数量的数据源提供独立控制，而无需线性地缩放参数数量。

我们在两个案例研究中评估 NULLs，测试不同数据源粒度下的遗忘效果。我们在 Wikipedia 语料库上训练了一个 1B 参数模型，将其约 600 万篇文章视为独立数据源，并测试 NULLs 能否在不引起更广泛主题级擦除的前提下遗忘单篇文章。NULLs 总体上匹配了黄金标准的重新训练：抑制某篇文章的记忆池会显著降低模型对该文章特有事实的回忆，同时保留来自其他数据源的语义相关知识。相比之下，事后方法破坏其他文章中相关知识的程度与移除目标数据源的程度相同。一个《哈利·波特》案例研究表明，NULLs 还可以瞬间移除更粗粒度、按主题定义的数据源，并且这种移除能够抵御对抗性重新学习攻击——这种攻击能在不到 10 个梯度步内逆转基于梯度的遗忘。最后，NULLs 对通用能力没有成本，在下游自然语言基准测试中与标准 Transformer 性能相当。

参考图注图1：NULLs 概述。（左）标准预训练将所有数据源的贡献混合到单个共享的神经元池中，使得数据源移除变得困难。（中）NULLs 同时允许通过共享骨干网络进行跨数据源学习，同时将特定数据源知识隔离在记忆池（通过记忆池上的稀疏掩码实现）中。（右）遗忘可以通过在推理时阻止数据源的掩码被激活来实现——可以是路由方式，也可以是永久将对应数据源的记忆池神经元置零。

**NULLs 如何在仍然跨数据源联合学习的同时解耦每个数据源的贡献？** 这两个目标似乎方向相反，但 NULLs 在没有任何监督标识哪些信息是特定于某个数据源的情况下调和了二者。其机制是一种训练动态，继承自 ghosal2025memorizationsinksisolatingmemorization 提出的记忆池（memorization sinks），这里的作用对象是数据源而非单个序列。考虑一个仅属于某个数据源的事实。由于共享骨干网络在每个文档上都被激活，只要该数据源出现，它就会收到关于该事实的梯度信号，但也会收到来自所有其他数据源的干扰更新。而该数据源的记忆池神经元接收相同的信号，但干扰少得多，因为它们只在其他数据源中的一小部分被激活。因此，该事实在记忆池中比在骨干网络中被更快地拟合。一旦发生这种情况，骨干网络上的梯度压力消失，骨干网络中任何残留的信息也会衰减，使得骨干网络只保留那些被多个数据源共同强化过的信息。因此，抑制某个数据源的记忆池正好移除了该数据源特有的内容，同时保留了从其他数据源学到的信息。

NULLs 表明，数据源解耦可以与联合学习和泛化在已训练模型中共存。这超越了遗忘本身，具有更广泛的意义。由于每个数据源的贡献保持解耦，模型的输出可以归因于预训练数据中负责的部分，并且任何单个数据源的影响都可以直接测量。我们将 NULLs 视为迈向在数据层面（而非仅输出层面）控制大模型的一步。

## 2 相关工作

**事后遗忘。** 事后方法修改一个已完全训练好的模型，以在训练后移除目标信息。一种方法是基于梯度的微调，使用降低目标概率的损失函数 [zhang2024npo; jang2022knowledgeunlearningmitigatingprivacy; yao2024large; eldan2023whosharrypotterapproximate]。另一条工作线旨在将遗忘目标定位到特定参数，并选择性地移除或修改它们 [chang-etal-2024-localization; maini2023neuralnetworkmemorizationlocalized; meng2022locating]。尽管研究广泛，这些方法表现出两种相反的失败模式。首先，它们经常影响模型超出预期目标之外的部分，导致语义相关知识的退化 [maini2024tofu] 以及通用能力的下降 [shi2024musemachineunlearningsixway]。其次，事后方法已被证明容易被逆转。patil2023sensitiveinformationdeletedllms 表明信息仍然可以在模型的中间层中被访问。同样，fan2025llmunlearningresilientrelearning 发现事后遗忘方法在进一步的微调攻击下不够鲁棒。这种脆弱性在良性设置中也被观察到：zhang2025catastrophic 证明量化可以恢复本已被遗忘的信息。

**数据源隔离。** 为解决事后遗忘的局限性，新兴的工作线旨在模型训练过程中定位信息。在混合专家模型中，shi2025flexolmo 和 gururangan2021demixlayersdisentanglingdomains 将独立的专家模块分配给不同的数据源和领域。类似地，在稠密模型中，cloud2024gradientrouting 和 shilov2025datafilteringknowledgelocalization 通过掩码训练梯度将来自特定数据源的数据路由到模型参数的一个子集。这两种方法通过简单地删除对应的模型组件使遗忘变得直接。然而，它们支持的粒度有限，因为每个数据源需要一个独立定制的专家或一组神经元。此外，这些方法通过完全隔离不同数据源更新的参数消除了跨数据源的联合学习。NULLs 通过一个共享骨干神经元池允许联合学习，并通过将特定数据源知识定位到共享记忆池中的稀疏掩码来实现更好的缩放。

## 3 原生可遗忘大语言模型

### 3.1 问题框架

**预训练数据与数据源** 令 D 表示完整的预训练数据集。我们假设 D 中的文档可以被划分为一组不重叠的*数据源* S₁, ..., S_N，使得 D = ⋃_{i=1}^N S_i。这些数据源代表可能受到下游遗忘请求影响的数据单元，可以在不同分辨率级别定义。例如，数据源可以对应单个文档或主题上连贯的数据簇。作为一个运行中例子，考虑一个在大型新闻语料库上训练的模型：一篇关于企业环境违规的《纽约时报》调查文章将构成 D 内的一个数据源 S_i。

**遗忘** 给定在 D 上训练的模型 Θ 以及一个需要遗忘的数据源 S_forget，遗忘的目标是获得一个行为如同 S_forget 从未出现在训练语料中的模型。在我们的例子中，《纽约时报》可能发出删除请求，指定那篇文章为 S_forget。遗忘后的模型不应再复现独特的段落，也不应回忆起仅在那篇文章中报道的细节，如内部举报人的姓名或专有数据。然而，它应该保留来自 D\setminus S_forget 中其他数据源所获得的环境法规和企业合规的一般知识。黄金标准是在 D\setminus S_forget 上重新训练得到 Θ_retrain，但这通常不可行。相反，先前的工作执行一个更新 U(Θ, S_forget) 来近似 Θ_retrain，无需重新训练，使用基于梯度的调整或参数编辑。

**原生可遗忘大语言模型** 事后遗忘方法 [maini2023neuralnetworkmemorizationlocalized; chang-etal-2024-localization] 常常退化和损害更广泛的模型能力和知识。例如，试图遗忘我们运行例子中的《纽约时报》文章可能会无意中损害模型从其他数据源获得的关于环境法规的更广泛知识。因此，我们研究那些遗忘被内置到模型结构中的模型类别，使得不需要事后权重更新。我们将此类模型称为*原生可遗忘模型*。

先前的工作尝试通过将单独的专家或参数子集分配给每个数据源来实现原生可遗忘性 [shi2025flexolmo; cloud2024gradientrouting]。当数据源数量少且定义粗粒度时，这种做法很有效，但在语言模型预训练的规模和粒度下却不可行。首先，这种方法可扩展性差，因为参数量与数据源数量呈线性增长，而数据源可能多达数百万个。其次，以这种方式隔离数据源会阻止模型获取跨越整个语料库的通用能力，因为没有参数在数据源间共享。为了实用，原生可遗忘模型必须*同时*跨数据源学习通用能力，同时保持对单个数据源的独立控制。

### 3.2 实现 NULLs

**前馈神经网络** 标准 LLaMA 的 MLP
```python
def forward(self, x):
    x_fc_1 = self.fc_1(x)
    x_fc_2 = self.fc_2(x)
    x = F.silu(x_fc_1) * x_fc_2
    return self.proj(x)
```

**后NULLs** MLP
```python
def forward(self, x, source_id):
    x_fc_1 = self.fc_1(x)
    x_fc_2 = self.fc_2(x)
    x = F.silu(x_fc_1) * x_fc_2
    x = x * mask(source_id)   # 新增：应用数据源掩码
    return self.proj(x)
```

图2：NULLs 需要对架构进行最小修改。NULLs 仅修改 Transformer 的全连接层。非线性后的激活乘以一个与数据源相关的掩码，该掩码激活所有共享的骨干神经元，但只激活记忆池中固定的一部分神经元。我们使用伪随机数生成器创建掩码，允许在训练或推理时动态生成。Transformer 架构的所有其他组件保持不变。

我们基于 ghosal2025memorizationsinksisolatingmemorization 中引入的 Memorization Sinks 架构实现 NULLs。他们的工作表明，选择性地激活一个记忆池神经元可以将广泛的记忆与共享骨干网络隔离开来。然而，Memorization Sinks 中的记忆池激活是...

相似文章

面向响应指定的大语言模型遗忘的零空间约束低秩自适应

arXiv cs.AI

本文提出了零空间约束响应指定遗忘（NSRU），一种低秩框架，通过将正交投影的LoRA更新限制在保留子空间的零空间内，实现受控的大语言模型遗忘，同时保持其良性能力。

大型语言模型能否重塑基础算法？

Hugging Face Daily Papers

# 论文页面 - 大型语言模型能否重塑基础算法？来源：[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后，它们还能从零重塑 Dijkstra、Euclid 等基础算法吗？** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域：先用“反学习”把目标算法从模型中抹去，再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。

原生可遗忘的大语言模型

相似文章

面向响应指定的大语言模型遗忘的零空间约束低秩自适应

大型语言模型能否重塑基础算法？

模型遗忘目标因语言功能不同而异

MLUBench: 多模态大语言模型终身遗忘评估基准

PreUnlearn：在大语言模型遗忘前审计附带知识损害

提交意见反馈