PreUnlearn：在大语言模型遗忘前审计附带知识损害

arXiv cs.CL 2026/06/18 04:00 论文

llm unlearning auditing knowledge-damage machine-unlearning safety data-centric

摘要

本文提出了PreUnlearn，一个在LLM遗忘执行前审计附带知识损害的框架，采用以数据为中心的分析来预测跨语义层的下游损害。

arXiv:2606.18473v1 Announce Type: new 摘要：面向大型语言模型（LLMs）的机器遗忘旨在移除特定知识，同时保留模型的其他能力。然而，需要遗忘的知识与需要保留的知识之间的界限常常不明确，因为相关的甚至远距离的信息可能在模型中相互纠缠。在本文中，我们从以数据为中心的角度研究LLM遗忘，并衡量遗忘效果如何从遗忘集传播到同领域和远距离领域的知识。我们发现一个一致的衰减模式：附带损害在遗忘集附近最强，随着语义距离而减弱，但在领域边界处并未消失。我们进一步探究这种损害是否可以在执行遗忘之前被审计。我们将遗忘集审计形式化为一个遗忘前预测任务，并分析哪些数据特征最能预测下游损害。我们的结果表明，遗忘集与评估集之间的交互特征提供了最强的信号，表明附带损害在一定程度上反映在模型更新前的数据几何中。这些发现将遗忘集审计定位为一种早期预警工具，用于识别有风险的遗忘运行并设计更可靠的遗忘程序。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:45

# 在大语言模型遗忘之前审计附带知识损伤
来源: https://arxiv.org/html/2606.18473
Bo Su 印第安纳大学伯明顿分校，美国印第安纳州 subo@iu\.edu & Ankit Shah 印第安纳大学伯明顿分校，美国印第安纳州 ankit@iu\.edu & Thai Le 印第安纳大学伯明顿分校，美国印第安纳州 tle@iu\.edu

###### 摘要

大型语言模型（LLM）的机器遗忘旨在移除特定知识，同时保留模型其余部分的能力。然而，需要遗忘的知识与需要保留的知识之间的界限往往并不清晰，因为模型中相关甚至遥远的信息可能相互纠缠。在本文中，我们以数据为中心的角度研究LLM遗忘，并测量遗忘效应如何从遗忘集传播到同领域和远领域知识。我们发现一个一致的衰减模式：附带损伤在遗忘集附近最强，随着语义距离增大而减弱，但不会在领域边界消失。我们进一步探讨这种损伤是否可以在执行遗忘之前被审计。我们将遗忘集审计建模为遗忘前的预测任务，并分析哪些数据特征最能够预测下游损伤。我们的结果表明，遗忘集与评估集之间的交互特征提供了最强的信号，表明附带损伤部分反映在模型更新前的数据几何结构中。这些发现将遗忘集审计定位为识别高风险遗忘运行并设计更可靠遗忘程序的早期预警工具。

PreUnlearn：在大语言模型遗忘之前审计附带知识损伤

Bo Su 印第安纳大学伯明顿分校，美国印第安纳州 subo@iu\.edu  
Ankit Shah 印第安纳大学伯明顿分校，美国印第安纳州 ankit@iu\.edu  
Thai Le 印第安纳大学伯明顿分校，美国印第安纳州 tle@iu\.edu

## 1 引言

参照图注图1：PreUnlearn框架包含两个阶段：（1）三层遗忘影响，其中LLM对候选遗忘集Df\\mathcal\{D\}\_\{f\}进行遗忘，并在三个语义层（L1,L2,L3L\_\{1\},L\_\{2\},L\_\{3\}）上评分，这些层对Df\\mathcal\{D\}\_\{f\}的相关性递减；最终，（2）遗忘前影响审计生成轻量级审计器，用于估计逐层对保留知识的潜在附带损伤风险，在遗忘*之前*筛选候选Df\\mathcal\{D\}\_\{f\}。

随着大型语言模型（LLM）越来越多地部署在高风险场景中，机器遗忘对于移除敏感、有害、过时或法律限制的信息同时保持模型整体实用性变得至关重要。遗忘的实际动机涵盖隐私法规、版权争议、用户删除请求以及移除有毒或不安全内容（Genget al., 2025 (https://arxiv.org/html/2606.18473#bib.bib28); Nguyenet al., 2025 (https://arxiv.org/html/2606.18473#bib.bib29); Mainiet al., 2024 (https://arxiv.org/html/2606.18473#bib.bib6); Shiet al., 2024 (https://arxiv.org/html/2606.18473#bib.bib7); Liet al., 2024 (https://arxiv.org/html/2606.18473#bib.bib8); Dornaet al., 2025 (https://arxiv.org/html/2606.18473#bib.bib5)）。在某些应用中，可能需要抑制与安全风险相关的特定领域能力，包括攻击性网络安全知识，如漏洞利用开发程序、漏洞分析或其他易被滥用的行为。由于从头开始重新训练通常不切实际，LLM遗忘旨在通过训练后更新来抑制目标知识（Eldan and Russinovich, 2023 (https://arxiv.org/html/2606.18473#bib.bib15); Janget al., 2023 (https://arxiv.org/html/2606.18473#bib.bib10); Liet al., 2024 (https://arxiv.org/html/2606.18473#bib.bib8)），同时保留模型的其余能力和事实知识。这一保留要求对于实际部署至关重要：如果相同的更新意外地降低了邻近事实、遥远知识或其他不相关能力，则遗忘程序是不完整的。因此，评估遗忘目标知识（遗忘集）是否会无意中影响模型中语义相关或不相关的其他知识至关重要，这是本研究的核心焦点（见图1 (https://arxiv.org/html/2606.18473#S1.F1)）。

现有的遗忘评估尚未足够细致地描述附带损伤。大多数先前的研究报告总体实用性指标或有限的回溯探针，这些往往无法捕捉遗忘损伤的数据中心结构，包括性能下降如何随着评估数据从遗忘集本身移到同领域知识、再到远距离相关甚至正交知识而传播。最近的研究表明，即使同领域或远领域知识已被严重破坏，标准实用性基准仍可能保持欺骗性高水平（Koet al., 2025 (https://arxiv.org/html/2606.18473#bib.bib4)），引发了对当前评估实践充分性的担忧。同时，大多数现有基准假设一个固定的遗忘集，并隐含地将评估集的选择视为给定。因此，两个实际研究问题（RQs）在很大程度上仍未探索：“使用遗忘集X进行遗忘将如何影响模型在知识Y上的表现？”（RQ.1. (https://arxiv.org/html/2606.18473#S1.I1.i1)），以及“我们能否在遗忘之前预先预测这种潜在影响或附带损伤？”（RQ.2. (https://arxiv.org/html/2606.18473#S1.I1.i2)）。这将使实践者能够在执行昂贵的优化之前预判高风险遗忘运行。

RQ.1.（三层遗忘影响）- 遗忘影响如何从遗忘集X扩散到同领域和远领域知识Y？  
RQ.2.（遗忘前影响审计）- 我们能否甚至在遗忘之前就预测遗忘知识X会对知识Y造成的附带损伤？

我们通过将遗忘前审计建模为监督学习问题来解决这两个问题（图1 (https://arxiv.org/html/2606.18473#S1.F1)）。将数据集组织为L1L\_\{1\}（预期退化）、L2L\_\{2\}（同领域损伤）和L3L\_\{3\}（无关领域损伤）三层，我们利用遗忘集、评估集及其交互的特征来预测未来的遗忘影响。这种公式化将预测本身不作为目的，而是作为识别哪些遗忘前信号可以解释后续附带损伤的工具。

测量显示出一致但非完全的衰减模式：遗忘影响在遗忘集上最强，在同领域知识上较弱，在远领域知识上最弱但仍然存在。审计进一步表明，遗忘集与评估集之间的交互特征，如语义接近度、表示形状比率以及词汇或长度关系，具有特别强的预测能力，并且在不同的遗忘算法之间保持稳定。

我们的主要贡献是：

1.  **三层测量框架。** 我们将遗忘影响组织为预期（L1L\_\{1\}）、同领域（L2L\_\{2\}）和远领域（L3L\_\{3\}）退化，并在两个模型系列和三种算法上展示，损伤一致地随语义距离衰减，但在直接目标之外仍然可见，且在不同遗忘集和固定超参数下存在显著差异。
2.  **作为监督预测的遗忘前审计。** 我们将遗忘集审计公式化为一个关于（遗忘集，评估集）对的回归问题，仅使用数据的预更新特征，不涉及梯度、遗忘后的检查点或事后测量。
3.  **预测信号的经验特征描述。** 我们表明，跨集几何特征（质心距离、相似性、长度和词汇比率）主导了任一集合的内在属性，在不同遗忘算法之间保持稳定，并且产生的排序质量足以用于实际分类。

## 2 相关工作

### 2.1 LLM遗忘

LLM遗忘旨在从预训练模型中移除选定的知识，同时保持整体实用性（Genget al., 2025 (https://arxiv.org/html/2606.18473#bib.bib28)）。现有工作遵循两种范式：**微调后遗忘**，其中遗忘集是已知微调语料库的子集（例如 TOFU、MUSE、FIUBench（Mainiet al., 2024 (https://arxiv.org/html/2606.18473#bib.bib6); Shiet al., 2024 (https://arxiv.org/html/2606.18473#bib.bib7); Maet al., 2025 (https://arxiv.org/html/2606.18473#bib.bib30)）），以及**直接遗忘**，其中目标知识已嵌入预训练模型（例如 WMDP、RWKU（Liet al., 2024 (https://arxiv.org/html/2606.18473#bib.bib8); Jinet al., 2024 (https://arxiv.org/html/2606.18473#bib.bib9)））。我们的设置遵循后者，更接近实际部署。

WikiText\-103原始段落 → 过滤可用段落 → 嵌入段落 → 聚类语义段落池 → 排除噪声 → 采样遗忘数据集  
图2：数据集构建模式。WikiText\-103段落经过过滤、嵌入、聚类为语义段落池，然后采样为遗忘数据集。每个数据集包含不相交的*遗忘*和*保留*划分，后续支持直接遗忘和三层影响评估。

### 2.2 LLM遗忘中的附带损伤

遗忘可能会降低遗忘集Df\\mathcal\{D\}\_\{f\}之外的知识。Koet al. (2025 (https://arxiv.org/html/2606.18473#bib.bib4))介绍了知识空洞探测，表明诸如MMLU（Hendryckset al., 2021 (https://arxiv.org/html/2606.18473#bib.bib2)）和TruthfulQA（Linet al., 2022 (https://arxiv.org/html/2606.18473#bib.bib1)）等静态基准可能遗漏遗忘造成的附带损伤，从而推动了超越仅检查Df\\mathcal\{D\}\_\{f\}是否被移除的评估需求。

一个相关问题是，哪些遗忘集可能导致此类损伤。先前的工作研究了哪些数据最难移除或引起最大的副作用（Thudiet al., 2022 (https://arxiv.org/html/2606.18473#bib.bib19); Kurmanjiet al., 2023 (https://arxiv.org/html/2606.18473#bib.bib20)）。基于影响力的选择（Koh and Liang, 2020 (https://arxiv.org/html/2606.18473#bib.bib14)）相关但需要模型梯度，难以扩展到LLM，并且产生的是逐示例而非遗忘集级别的分数。更接近我们方法的是，一条数据中心线从数据集属性预测下游行为（Danget al., 2024 (https://arxiv.org/html/2606.18473#bib.bib3); Ilyaset al., 2022 (https://arxiv.org/html/2606.18473#bib.bib17)）；我们将此扩展到遗忘-评估对上的遗忘前审计。

## 3 RQ.1. (https://arxiv.org/html/2606.18473#S1.I1.i1) 三层遗忘影响

### 3.1 问题公式化

设Mθ0M\_\{\\theta\_\{0\}\}表示遗忘前的目标LLM，U\(⋅\)\\mathcal\{U\}\(\\cdot\)表示固定的训练后遗忘算法。我们考虑一个候选语义域集合G=\{Gi\}i=1N\\mathcal\{G\}=\\\{G\_\{i\}\\\}\_\{i=1\}^\{N\}，其中每个域包含覆盖连贯语义主题的文档。对于每个域GiG\_\{i\}，我们构造一个遗忘子集Gif⊂GiG\_\{i\}^\{\\mathrm\{f\}\}\\subset G\_\{i\}，作为遗忘的候选遗忘集。对于每个候选域GiG\_\{i\}，我们将遗忘集定义为Df←GifD\_\{f\}\\leftarrow G\_\{i\}^\{\\mathrm\{f\}\}并获得相应的遗忘后检查点：

Mθ∗←U\(Mθ,Df\)\.M^\{\*\}\_\{\\theta\}\\leftarrow\\mathcal\{U\}\(M\_\{\\theta\},D\_\{f\}\)\.在整个工作中，我们固定基础模型Mθ0M\_\{\\theta\_\{0\}\}和U\\mathcal\{U\}，仅改变遗忘集DfD\_\{f\}的语义内容。这使得我们可以隔离并分析遗忘不同语义域如何影响结果模型行为和知识影响模式。

对于每次遗忘运行，我们在一个由所有域GiG\_\{i\}构成的共享评估集上比较遗忘后模型Mθ∗M^\{\*\}\_\{\\theta\}与原始模型MθM\_\{\\theta\}。这种共享评估设计使我们能够询问遗忘DfD\_\{f\}的影响在下面描述的三层知识影响上留下了什么。

#### 三层知识影响。

为了表征遗忘的效果，我们将遗忘后的知识退化组织成三个语义层。给定遗忘集DfD\_\{f\}，第一层测量遗忘集本身的退化，记为L1L\_\{1\}，对应遗忘的预期效果。第二层测量与遗忘域语义接近的保留段落的退化，记为L2L\_\{2\}，捕捉相关知识的局部附带损伤。第三层测量来自其他语义域的段落上的退化，记为L3L\_\{3\}，捕捉对遥远且不相关知识的无意遗忘。然后，我们可以将产生的三层附带轮廓总结为：

y=\(L1,L2,L3\)\\mathbf\{y\}=\(L\_\{1\},L\_\{2\},L\_\{3\}\)

### 3.2 实验设置

#### 数据集准备。

我们使用WikiText\-103（Merityet al., 2016 (https://arxiv.org/html/2606.18473#bib.bib21)），该数据集源自维基百科文章，用于遗忘，因为维基百科文本广泛用于LLM预训练，因此可以合理假设目标模型已经学到了这些内容中的大部分。我们通过观察到在采样的WikiText\-103段落上持续较低的困惑度（PPL）来确认这一假设。因此，WikiText\-103为研究对可能已存在于模型中的知识进行遗忘提供了一个合适的测试平台。

我们通过质量控制流水线（图2 (https://arxiv.org/html/2606.18473#S2.F2)）处理WikiText\-103，得到1010个分离良好的**语义簇**，用于构建遗忘集候选。从生成的簇中，我们构建100100个遗忘数据集，每个簇1010个，每个数据集包含两个同簇但互不相交的5050个文本划分：一个遗忘集DfD\_\{f\}，是直接的遗忘目标；一个保留集DrD\_\{r\}，提供遗忘后应保持可用的同领域文本。这种遗忘/保留构建与标准的遗忘设置相匹配：遗忘是移除DfD\_\{f\}同时保持对DrD\_\{r\}的性能。数据集构建的细节见附录A (https://arxiv.org/html/2606.18473#A1)。

参照图注图3：六个设置下按层的PPL比率分布。L1L\_\{1\}（自身）、L2L\_\{2\}（同领域）、L3L\_\{3\}（不同领域）的PPL比率（遗忘后/遗忘前）的CDF。灰色虚线垂直线标记每层的中位数；虚线在比率=1=1处为无变化参考线。设I\(⋅\)\\mathcal\{I\}\(\\cdot\)表示遗忘影响指标，我们将在之后定义，我们可以将三个评估层L1L\_\{1\}、L2L\_\{2\}和L3L\_\{3\}定义如下：

L1=I\(Df\),L2=I\(Gi∖Df\),L3=I\(⋃j≠iGj\),L\_\{1\}\{=\}\\mathcal\{I\}\(D\_\{f\}\),\\;L\_\{2\}\{=\}\\mathcal\{I\}\(G\_\{i\}\\setminus D\_\{f\}\),\\;L\_\{3\}\{=\}\\mathcal\{I\}\\Big\(\\bigcup\_\{j\\neq i\}G\_\{j\}\\Big\),

#### 目标遗忘模型。

我们使用两个开放权重的指令微调目标模型：Llama\-3.1\-8B\-Instruct (Grattafioriet al., 2024 (https://arxiv.org/html/2606.18473#bib.bib24)) 和 Qwen2.5\-7B\-Instruct (Qwenet al., 2025 (https://arxiv.org/html/2606.18473#bib.bib26))。作为合理性检查，我们在采样的WikiText\-103段落上测量了基础模型的PPL，观察到较低的值，这间接证明了这些段落对目标模型来说是熟悉的。使用两个模型系列可以检查结果是否特定于单个架构系列。

#### 遗忘算法。

我们评估三种遗忘算法：梯度上升（GA）（Janget al., 2023 (https://arxiv.org/ht

相似文章

模型遗忘目标因语言功能不同而异

arXiv cs.CL

本文认为，LLM中的遗忘应依赖于目标，提出了一种基于余弦的元学习RMU变体用于危险知识遗忘，以及一种结合探针方向的多层目标用于毒性遗忘，在四个7-8B模型上取得了显著效果。

大型语言模型能否重塑基础算法？

Hugging Face Daily Papers

# 论文页面 - 大型语言模型能否重塑基础算法？来源：[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后，它们还能从零重塑 Dijkstra、Euclid 等基础算法吗？** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域：先用“反学习”把目标算法从模型中抹去，再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。

PreUnlearn：在大语言模型遗忘前审计附带知识损害

相似文章

模型遗忘目标因语言功能不同而异

大型语言模型能否重塑基础算法？

原生可遗忘的大语言模型

抵御重学攻击的鲁棒大语言模型遗忘：表征中的次要分量至关重要

利用非对称数据进行遗忘：通过公共数据改善遗忘-效用权衡

提交意见反馈