有限记忆语言模型中的遗忘审计

arXiv cs.CL 2026/07/02 04:00 论文

language-models unlearning forgetting auditing causal-inference retrieval-augmented machine-learning

摘要

本文提出了一种因果审计框架，通过在推理过程中改变数据库状态来评估有限记忆语言模型中的遗忘情况，发现参数泄漏可忽略不计，删除后的正确性主要源于检索伪影而非残留的参数记忆。

arXiv:2607.00605v1 Announce Type: new 摘要：有限记忆语言模型（LMLMs）将事实知识外部化到数据库中，以便在不进行重新训练的情况下实现基于删除的遗忘。现有评估从整体上衡量删除后的正确性，无法区分已删除事实是通过残留的参数记忆、替代检索路径还是近邻检索伪影得以保留。我们提出了一种因果审计框架，该框架固定模型，并在推理时通过三种干预（FULL、DEL-ON、DEL-OFF）改变数据库状态。该框架将删除后的行为分解为参数泄漏L(f)、检索介导的正确性R(f)以及基于推理时检索轨迹的检索伪影率。我们将其应用于13个数据库中的12,228个别名闭包删除，包括我们在三个领域中构建的四种对抗拓扑（Base、Alias、Noise、Collision），以及六种提示表述。参数泄漏在所有变体和所有提示风格中几乎为零：在没有检索的情况下，模型很少返回已删除的答案。确实存留的残留存在于检索图中：检索介导的正确性和检索伪影率在四舍五入范围内处处匹配，因此在我们审计中，删除后的正确性主要从近邻检索中重建。该残留从已发布LMLM数据库的0.7%到最具对抗性的变体的13.6%不等，提示表述并不能独立控制删除事实的残留程度。这些结果表明，对于此类LMLM和删除程序，遗忘边界主要由数据库管理员而非模型划定。

查看原文

查看缓存全文

缓存时间: 2026/07/02 05:38

# 审计有限记忆语言模型中的遗忘现象
Source: https://arxiv.org/html/2607.00605

###### 摘要

有限记忆语言模型 (LMLMs) 将事实知识外部化到数据库中，从而实现基于删除的遗忘，无需重新训练。现有的评估方法仅衡量删除后整体正确性，无法区分被删除的事实是通过残余参数记忆、替代检索路径还是近邻检索伪影而存续。我们提出一个因果审计框架，该框架固定模型，在推理时对数据库状态进行三种干预：FULL、DEL-ON 和 DEL-OFF。该框架将删除后的行为分解为参数泄漏 L(f)、检索中介正确性 R(f) 以及基于推理时检索轨迹的检索伪影率。我们将其应用于十二个数据库中的 12,228 个别名闭包删除操作，这些数据库包括我们在三个领域中构建的四种对抗性拓扑结构（Base、Alias、Noise、Collision）以及六种提示公式。在每个变体和每种提示风格中，参数泄漏几乎为零：在无检索的情况下，模型极少返回已删除的答案。确实存续的残余存在于检索图中：检索中介正确性和检索伪影率在所有场景下都在舍入误差范围内匹配，因此，在我们的审计中，删除后的正确性主要是由近邻检索重构的。这个残余值范围从已发布 LMLM 数据库上的 0.7% 到最具对抗性的变体上的 13.6%，而提示公式本身并不能独立控制被删除事实的存续程度。这些结果表明，对于此类 LMLM 及其删除流程，遗忘边界主要由数据库管理员而非模型本身划定。

关键词：机器学习，ICML

## 1 引言

现代语言模型日益依赖结合参数知识与外部记忆的混合架构。有限记忆语言模型（LMLMs）是这一范式的一个突出实例，它将模型参数中编码的语言能力与外部数据库中存储的事实知识明确分离（Zhao 等人，2025 (https://arxiv.org/html/2607.00605#bib.bib1)）。如图 1 (https://arxiv.org/html/2607.00605#S1.F1) 所示，LMLM 保留了标准语言模型的语言能力，但将事实回忆路由至外部数据库而非将其保留在参数中。这种设计实现了基于删除的遗忘：通过从数据库中移除条目，旨在消除对特定事实的访问，而无需重新训练（Zhao 等人，2025 (https://arxiv.org/html/2607.00605#bib.bib1)）。此类能力对于涉及数据治理、隐私保护和模型编辑的应用尤为重要。

参见图注图 1：标准检索增强语言模型 (LLM + RAG) 与 LMLM 的比较。两种架构都将参数模型与外部数据库配对，但 LMLM 经过预训练以限制事实知识的内部存储，因此事实回忆通过外部存储进行路由，而不是从参数重构（Zhao 等人，2025 (https://arxiv.org/html/2607.00605#bib.bib1)）。然而，尚不清楚这些系统中的删除是否真正移除了知识。现有的遗忘评估通常衡量模型在删除前后是否能给出正确答案，但并未区分删除后正确性的根本机制（Zhao 等人，2025 (https://arxiv.org/html/2607.00605#bib.bib1)）。模型仍可能因残余参数记忆、替代检索路径或外部数据库中的语义相关匹配而正确回答。因此，当前的指标无法确定知识是否已成功外部化，或者是否仍内部存续于模型中。

在此工作中，我们提出了一个用于分析 LMLM 中遗忘现象的因果审计框架。我们的方法引入了三种受控干预：FULL，数据库完好且启用检索；DEL-ON，相关条目被删除但检索仍启用；DEL-OFF，执行相同删除但禁用检索。通过比较这些条件下模型的行为，我们分离出外部检索的贡献并量化残余的内部知识。这使得我们能够将删除后的行为分解为参数泄漏、检索中介正确性和检索伪影。

我们使用直接来自 LMLM 数据库 (Zhao and contributors, 2025 (https://arxiv.org/html/2607.00605#bib.bib2)) 以及其他自建数据库¹¹¹代码和自定义数据库可在 https://github.com/raeesiarya/LMLMAudit 获取。的事实实现该框架，并应用一种经验证的删除流程，该流程移除一个事实的所有规范表示和别名等价表示。我们进一步在推理过程中记录检索轨迹，以将模型输出归因于明确的数据库证据。这种受控设置为审计 LMLM 中知识是否已成功外部化提供了一种原则性方法。

## 2 相关工作

我们的工作处于三条研究路线的交汇处。首先，检索增强语言模型将参数表示与推理时访问的外部记忆配对（Lewis 等人，2020 (https://arxiv.org/html/2607.00605#bib.bib3)；Guu 等人，2020 (https://arxiv.org/html/2607.00605#bib.bib4)），而我们审计的 LMLM 架构（Zhao 等人，2025 (https://arxiv.org/html/2607.00605#bib.bib1)）是最近的扩展，它预训练模型以限制内部存储事实知识，从而检索成为主要的事实通道。这条工作线表明外部检索可以提高事实准确性（Karpukhin 等人，2020 (https://arxiv.org/html/2607.00605#bib.bib11)），但未回答知识是真正外部化还是部分保留在参数中（Mallen 等人，2023 (https://arxiv.org/html/2607.00605#bib.bib12)）。

其次，诸如 ROME (Meng 等人，2022 (https://arxiv.org/html/2607.00605#bib.bib6)) 和 MEMIT (Meng 等人，2023 (https://arxiv.org/html/2607.00605#bib.bib7)) 之类的知识编辑方法从相反方向解决同一个问题：它们并非将知识外部化，而是就地定位和修改参数关联（Yao 等人，2023 (https://arxiv.org/html/2607.00605#bib.bib13)）。LMLM 旨在实现 ROME 和 MEMIT 所绕过的更清晰分离，这使得 LMLM 环境成为询问这种分离是否真正成立的天然场所。

第三，关于机器遗忘的研究探究了特定训练数据是否可以在事后从模型中移除（Bourtoule 等人，2021 (https://arxiv.org/html/2607.00605#bib.bib14)），并且往往发现残留痕迹难以完全消除（Lizzo and Heck, 2026 (https://arxiv.org/html/2607.00605#bib.bib8)；Carlini 等人，2021 (https://arxiv.org/html/2607.00605#bib.bib5)）。我们的审计在 LMLM 环境中接过了这个问题，此时该问题以一种新的方式变得易于处理：由于数据库是设计中的事实存储，删除可以在推理时应用，并且由此产生的行为可以分解为独立的参数通道和检索通道。我们在第 3 节 (https://arxiv.org/html/2607.00605#S3) 中发展的框架，据我们所知，是第一个对每个事实进行这种分解，并将存续的正确性归因于特定检索候选项的工作。

## 3 方法设置：因果审计框架

我们评估有限记忆语言模型在事实从外部数据库中移除时是否真的遗忘了这些事实。每个事实表示为一个主题-关系-对象元组，例如 Geri Halliwell – Famous For – Spice Girls。在推理时，检索在模型生成答案之前为其提供相关的数据库条目作为额外上下文。因此，当检索启用时，模型并非直接读取整个数据库；而是由检索步骤选择相关事实并将其插入模型的输入上下文中。附录 A.1 (https://arxiv.org/html/2607.00605#A1.SS1) 给出了实验网格中使用的提示公式示例。

我们的审计比较了三种干预状态。在 FULL 中，目标事实保留在数据库中并启用检索。这衡量正常的数据库支持准确率。在 DEL-ON 中，目标事实被删除但检索仍启用。这测试答案是否可以通过其他数据库条目、别名、语义相关事实或检索伪影恢复。在 DEL-OFF 中，目标事实被删除且检索被禁用。这隔离了参数回忆，因为模型必须在没有检索证据的情况下回答。

我们使用这些干预将删除后的正确性分解为三种机制。参数泄漏发生在模型在 DEL-OFF 中正确回答时，表明被删除的事实可能仍存储在模型参数中。检索中介正确性发生在模型在 DEL-ON 中正确但在 DEL-OFF 中不正确时，表明检索帮助在删除后恢复了答案。检索伪影发生在模型产生正确答案，即使被删除的事实并不直接作为检索证据可用时。形式上，对于事实 f = (s, r, o) 和干预条件 c，令 Y(f, c) 表示归一化的模型预测。我们将参数泄漏定义为

L(f) = I[Y(f, DEL-OFF) = o],

这指示模型是否能在无检索的情况下恢复被删除的事实。

我们将检索中介正确性定义为

R(f) = I[Y(f, DEL-ON) = o ∧ Y(f, DEL-OFF) ≠ o],

这捕捉检索使得删除后答案正确的情况。

跨事实集合 F，经验泄漏率为

L̂ = (1/|F|) ∑_{f ∈ F} L(f) = (1/|F|) ∑_{f ∈ F} I[Y(f, DEL-OFF) = o].

类似地，我们通过平均 R(f) 在 F 上估计检索中介正确性。

## 4 实验设置

除了已发布的 LMLM 数据库 (Zhao and contributors, 2025 (https://arxiv.org/html/2607.00605#bib.bib2))，我们还开发了关于国家、政治家和体育的数据库。在这三个主题中，我们构建了四个数据库变体（Base、Alias、Noise 和 Collision），总共十二个自定义数据库。这四个变体旨在压力测试被删除事实在规范移除后仍可访问的不同机制。Base 仅包含每个事实的规范 (s, r, o) 三元组，使检索无替代路径。Alias 仅以别名化的主题和关系形式存储相同事实，无规范条目，测试别名闭包删除是否能捕捉到所有表面实现。Noise 通过将目标对象路由到通过释义主题（例如，*Government of United States → Seat of Government → Washington, D.C.*）的诱饵三元组增强 Base，探究检索是否能通过近邻释义恢复已删除的答案。Collision 通过使用与主题相同但路由到不同对象的接近命中三元组（例如，*United States → Largest City → New York City*）增强 Base，探究检索是否会漂移到可混淆的邻域并返回合理但错误的答案。表 LABEL:tab:custom\_dataset\_variants 概述了政治领域这四个变体的示例。我们在六种提示公式下评估每个目标事实：直接提问、改写提问、上下文提问、完形填空提示、续写提示和少样本提示；示例见附录 A.1 (https://arxiv.org/html/2607.00605#A1.SS1)。

将六组提示、三种干预状态和十三个数据库交叉，得到一个完全交叉的评估网格，其中每个目标事实在所有条件下对匹配输入进行评分。对于每个单元格，我们记录精确匹配、词元级精确率、召回率和 F1，以及跨状态量 L(f)、R(f) 和检索伪影率；检索轨迹在每次 FULL 和 DEL-ON 调用时记录，以便将删除后的正确性归因于明确的数据库证据而非隐式模型行为。图 2 (https://arxiv.org/html/2607.00605#S4.F2) 概述了此流程。

参见图注图 2：评估流程概览。我们使用已发布的 LMLM 数据库以及针对国家、政治家和体育的专业化数据库评估六组提示。我们在三种推理时数据库状态（FULL、DEL-ON 和 DEL-OFF）下评估数据库。对于每个评估指标，这产生一个 6 × 3 × 13 的结果矩阵。对于每个目标事实，我们通过枚举规范三元组以及在其别名映射下主题、关系和对象与目标匹配的所有别名等价三元组来构建删除集。然后我们从数据库中移除该集合，并通过检查没有保留的三元组与目标等效来验证删除。同一个提示在 FULL、DEL-ON 和 DEL-OFF 下进行评估，生成的答案在根据金标准对象评分前进行归一化。在 FULL 和 DEL-ON 运行期间，我们还保存返回给模型的检索候选项。当归一化答案与金标准对象匹配但没有保留的检索候选项与被删除事实金标准等效时，DEL-ON 答案计为检索伪影。

## 5 结果

我们结果的参考点是原始 LMLM 论文 (Zhao 等人，2025 (https://arxiv.org/html/2607.00605#bib.bib1)) 中报告的总体评估，该论文在数据库禁用时使用一个单一的 FactScore (Min 等人，2023 (https://arxiv.org/html/2607.00605#bib.bib10)) 下降值和每个遗忘步骤使用一个单一的 TOFU (Maini 等人，2024 (https://arxiv.org/html/2607.00605#bib.bib9)) 遗忘质量 p 值。这两个量都将每个事实的删除后行为折叠成一个数字，因此无法指示存续的正确答案来自哪个通道。我们的框架将该聚合信号细化为跨三种干预状态的每个事实归因，我们在下面针对原始论文中的相应聚合量解读每个结果。

我们在提示 × 数据库网格的每个单元格上、在所有三种干预下运行 LMLM。跨 78 个 (提示文件, 数据库) 单元格，这产生了 12,228 个配对的 (DEL-ON, DEL-OFF) 评估以及相同数量的 FULL 基线，总共 36,684 个模型补全。所有报告的数量都是基于事实配对组的计数加权平均值，因此具有更多目标事实的提示文件按比例贡献到汇总中。我们将本节限于直接观察，跨图解读推迟到第 6 节 (https://arxiv.org/html/2607.00605#S6)。

我们从变体层面的视角开始。图 3 (https://arxiv.org/html/2607.00605#S5.F3) 将 DEL-ON 正确性分别归因于其三个组成部分，针对四个自定义变体和已发布的 LMLM 数据库。特别是，检索伪影条形图隔离了这样的情况：DEL-ON 返回金标准对象，尽管在删除后保留的检索轨迹候选中没有出现金标准等价的三元组。

参见图注图 3：按数据库变体的 DEL-ON 正确性归因。堆叠的左条在

有限记忆语言模型中的遗忘审计

相似文章

MemAudit：通过因果归因与结构异常检测对受污染代理记忆进行事后审计

归因盲点：检测语言模型何时依赖记忆而非检索到的上下文

参数对齐缓解多语言专家语言模型中的灾难性遗忘

回收评估：有损记忆比空记忆更糟糕

学会记住什么：面向长时域语言代理的基于约束优化的可观测性安全记忆保留

提交意见反馈