基于边际自校正的大规模快速遗忘

arXiv cs.LG 论文

摘要

介绍了MASC(边际自校正),一种用于大型语言模型的高效遗忘方法,采用在线停止规则,以降低的计算成本实现有竞争力的遗忘-保持权衡,并在TOFU和MUSE基准上得到验证。

arXiv:2606.02920v1 Announce Type: new 摘要:语言模型遗忘(unlearning)旨在更新训练好的模型,使其表现得像从未见过特定训练样本,同时保持模型效用并避免昂贵的重新训练。现有方法通常使用固定的训练预算对预训练模型进行微调,之后通过在下游验证数据上评估多个保存的检查点来选择最终模型。这存在两个导致不必要计算从而限制可扩展性的来源:超出理想遗忘-保持权衡的训练,以及需要额外存储和重复评估的检查点选择。为解决这些限制,我们提出了边际自校正(MArgin Self-Correction,MASC),一种高效的遗忘方法,带有无需下游评估的在线停止规则。给定一个待遗忘的文本序列,MASC主动降低原始下一个词元与最可能替代词元之间的logit差距。当该差距在所有遗忘序列的足够大比例词元位置上平均较小后,它输出最终模型。在TOFU、MUSE News和MUSE Books上,MASC以现有基线方法的一小部分计算成本实现了有竞争力的遗忘-保持权衡。我们进一步观察到,随着模型规模(即参数数量)增大,MASC和SimNPO的权衡均得到改善——遗忘指标保持可比,而保留效用增加。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:40

# 基于边缘自校正的大规模快速遗忘学习  
来源:https://arxiv.org/html/2606.02920  

Federico Di Gennaro  
苏黎世联邦理工学院  
& Alexander Shevchenko¹¹  
苏黎世联邦理工学院  
& Fanny Yang  
苏黎世联邦理工学院  

###### 摘要  

语言模型遗忘学习会更新训练好的模型,使其表现得好像从未见过某些训练样本,同时保持模型效用并避免昂贵的重新训练。现有方法通常使用固定的训练预算对预训练模型进行微调,然后在训练结束后通过在下游验证数据上评估多个保存的检查点来选出最终模型。这种方法的可扩展性受到两个不必要的计算来源的限制:超出期望的“遗忘-保留”权衡的训练,以及需要额外存储和重复评估的检查点选择。为了解决这些局限性,我们引入了**MArgin Self-Correction** (MASC),一种高效的遗忘学习方法,它具有**在线**停止规则,无需下游评估。对于每个要遗忘的文本序列,MASC 主动减小原始下一 token 与最有可能的替代 token 之间的 logit 差距。当所有遗忘序列中足够大比例的词元位置上的这个差距平均变小时,它输出最终模型。在 TOFU、MUSE News 和 MUSE Books 上,MASC 以现有基准方法计算成本的一小部分实现了具有竞争力的遗忘-保留权衡。我们进一步观察到,随着模型规模(即参数数量)的增加,MASC 和 SimNPO 的权衡都有所改善——遗忘指标保持可比,而保留效用增加。  

## 1 引言  

尽管大型语言模型 (LLM) 在代码生成 [37, 8]、数学推理 [26] 和科学发现 [1] 等任务中取得了显著成功,但它们容易记忆敏感的训练数据 [6],包括私人信息 [35, 43] 和受版权保护的内容 [21]。这种倾向带来了重大的安全和隐私风险,尤其是在 LLM 如今越来越多地部署在高风险领域 [25, 49] 的情况下。这些担忧也反映在法律框架中,例如《加州消费者隐私法案》(CCPA) [3] 和欧盟《通用数据保护条例》(GDPR) [17],这些法案确立了请求删除个人数据的权利,通常被称为“被遗忘权”。  

机器学习遗忘 [2, 5, 28] 为此目标提供了一种计算框架。给定一个训练好的模型和一组要遗忘的样本,目标是返回一个新模型,使其表现得好像这些样本从未被用于训练,同时保持其在其余数据上的性能。黄金标准是精确重训练,即在从训练语料库中移除被遗忘样本后从头开始训练模型。虽然重训练*本身*就给出了期望的行为,但对于现代语言模型来说,计算成本过高。这促使了**近似**遗忘方法,即对现有模型进行微调。然而,近似遗忘引入了一个微妙的“遗忘-保留”权衡:弱化过程可能使目标内容仍可复现,而过于激进的操作可能损害无关数据上的性能,这让人联想到更广泛的灾难性遗忘问题 [28, 32, 34, 23]。  

| TOFU | 0 1000 2000 3000 4000 5000 | MUSE News | 0 1000 2000 3000 4000 5000 | MUSE Books | 0 1000 2000 3000 4000 5000 |
|------|----------------------------|------------|----------------------------|-------------|-----------------------------|
| 挂钟时间 (秒) | | | | | |
| 0.25 0.50 0.75 1.00 | 1-ROUGE-L (DfD_f) | 0.25 0.50 0.75 1.00 | 1-Prob (DfD_f) | 0.25 0.50 0.75 1.00 | Truth Ratio (DfD_f) |
| MU (DrD_r) | 0.25 0.50 0.75 1.00 | 1-VerbMem (DfD_f) | 0.25 0.50 0.75 1.00 | 1-KnowMem (DfD_f) | 0.25 0.50 0.75 1.00 | KnowMem (DrD_r) |
| | | | | | |
| NPO+KL | RGA+GD | SimNPO | MASC (Ours) | NPO+KL | RGA+GD | SimNPO | MASC (Ours) |

图 1:顶部:具有相似保留-遗忘权衡的方法的挂钟运行时间(秒)。底部:计时方法的遗忘-保留权衡。每个指标在 [0,1] 范围内(越高越好),MASC 具有竞争力(即未被其他方法帕累托支配)。

现有方法——包括梯度上升 (GA) [50]、NPO [51, 15] 及其正则化变体 [7, 33, 42]——通常缺乏一种*在线*(即在训练期间)模型选择规则来识别最优(或期望的)遗忘-保留权衡,而不依赖于昂贵的地下评价。相反,这些算法通常以预定义的固定计算预算运行,这既低效(参见图 1),又对实际的遗忘动态不敏感。因此,从业者被迫事后选择最终模型,只有在训练完成后才评估所有保存的检查点。这引出了我们的第一个研究问题:*(Q1) 我们能设计一个高效的遗忘目标函数,并具有内在的停止规则,从而为遗忘-保留权衡提供可控的停止标准吗?*  

我们引入了**MArgin Self-Correction** (MASC),一种遗忘方法,其目标函数自然允许**自适应**停止规则。MASC 在保留正则化损失上进行梯度更新,该损失在保留数据上阻止与原始模型的漂移,同时纠正那些仍然过于主导的遗忘集 token 预测。每个遗忘延续在 teacher forcing 下进行评估:在每个 token 位置,MASC 计算一个**受限边缘**,定义为原始下一 token(也称为**目标 token**)与模型对原始下一 token 的 top-k 个替代 token 的 logits 的 log-sum-exp 聚合之间的 logit 差距。这个边缘衡量了模型相对于合理的替代 token 仍然偏好被遗忘 token 的强度。MASC 随后返回满足边缘条件的第一检查点(该条件作用于监控的遗忘集 token 中足够大比例)。我们证明,这个 token 级别的条件理论上限制了精确复现被遗忘延续的概率(参见命题 1)。因此,返回的检查点是使用遗忘过程中优化的相同条件在线选择的,而不是运行固定训练预算后接着进行下游检查点评估。经验上,这以现有基准方法计算成本的一小部分实现了具有竞争力的遗忘-保留权衡(见图 1)。这种效率优势在大规模场景中尤其重要,因为微调和评估期间的遗忘成本可能随模型大小快速增长。  

除了计算,规模也可能影响遗忘-保留行为本身。虽然先前的工作研究了遗忘性能如何随删除请求的大小变化 [33, 42],但**模型规模**的作用仍未得到充分探索。更大的模型可能在监督微调期间更强烈地内化目标信息 [36, 6, 31],并且当这些信息后来被移除时,其响应方式可能不同。我们旨在回答的第二个问题是:*(Q2) 模型规模如何影响学习过程中的知识获取以及随后遗忘过程中的知识移除?*  

在此分析中,我们区分两个层面的记忆化:**精确记忆化** [6, 36, 31],即模型逐字复述目标内容;以及**知识记忆化**,即模型在释义提示下恢复相同的底层信息。在监督微调期间,两个指标都随模型规模增长,并在 log-log 空间中遵循经验幂律趋势,精确记忆化有更大的拟合指数。这表明规模对逐字复述的增强比对基于释义的恢复更强。然而,遗忘后,遗忘侧的指标在不同模型规模之间大致稳定,而保留效用增加。这表明规模主要改善了遗忘后权衡的效用侧,而不是系统性地增强对被遗忘内容的残余记忆。  

总结起来,我们的主要贡献是:  

- 我们引入了 MASC,一种高效的遗忘方法,仅当目标 token 仍然比 top-k 个最可能替代 token 的聚合更可能时,才抑制它们。我们在 TOFU、MUSE News 和 MUSE Books 上证明 MASC 在明显更短的挂钟运行时间内实现了有竞争力的权衡。  
- 我们提供了跨 Qwen2.5 系列的规模研究,考察规模如何影响不同形式的记忆化,以及它如何有益于遗忘后的最终遗忘-保留前沿(对于 MASC 和 SimNPO [15] 都是如此)。  

**数据集。** 我们在三个标准 LLM 遗忘基准上评估 MASC:TOFU [33]、MUSE News 和 MUSE Books [42]。TOFU 是一个基于虚构传记的合成问答基准。我们使用其 forget10/retain90 划分,其中 10% 的样本分配给遗忘集,其余 90% 分配给保留集。MUSE 提供了一个更现实的场景,基于新闻文章(BBC)和书籍(哈利波特系列)中的记忆文本。  
¹ 代码可在 FedericoDiGennaro/Fast-LLM-Unlearning-MarginSelfCorrection 获取。  

**符号。** 对于有限集 S,我们用 Δ(S) = {p ∈ R₊^S : ∑_{s∈S} p_s = 1} 表示其上的概率单纯形。如果 S ⊆ R^d 且 r ∈ N 为正,则 S^r 表示 S 的 r 重笛卡尔积。最后,对于 x ∈ R,我们用 [x]_+ = max{x, 0} 表示 x 的正部。对于整数 T ∈ N,我们用 [T] 表示集合 {1, ..., T}。  

## 2 LLM 遗忘与相关工作  

本节介绍 LLM 遗忘的符号,并提供一个非详尽的概述(见附录A 以获取更详细讨论)关于我们将用作基线的知名遗忘方法。  

让 V 表示 token 词汇表,Δ(V) 是 V 上的概率单纯形。然后,令 C = ⋃_{ℓ ≥ 0} V^ℓ 表示有限 token 上下文的集合。一个自回归语言模型,参数为 θ ∈ R^d,被定义为一个策略 π_θ : C → Δ(V),其中 π_θ(· | c) = softmax(z_θ(· | c)) 是在给定上下文 c ∈ C 的情况下 V 上的下一 token 分布,而 z_θ(· | c) 表示对应的**logits**。给定一个包含提示 x ∈ X 和延续 y = (y_1, ..., y_T) ∈ V^T 的样本,我们通过模型分配给完整延续的概率来评估策略在 (x, y) 上的表现,该概率分解为 π_θ(y | x) = ∏_{t=1}^T π_θ(y_t | c_t),其中 c_t = (x, y_{<t})。  

**目标函数。** 给定一个遗忘集 D_fg 和一个保留集 D_ret,大多数现有的遗忘损失可以分类为两类。  

**(i) 梯度上升 (GA) 损失。** GA [50] 简单地最大化遗忘延续的对数似然:  
L_GA(θ; D_fg) = - (1/|D_fg|) ∑_{(x,y) ∈ D_fg} log π_θ(y | x).  (1)  

**(ii) 负偏好优化 (NPO)。** NPO [51, 15] 的损失定义为:  
L_NPO(θ; D_fg) = (1/β) · (1/|D_fg|) ∑_{(x,y) ∈ D_fg} log(1 + (π_θ(y|x)/π_θ₀(y|x))^β),  (2)  
其中 β > 0 是一个逆温度参数,σ(u) = (1 + e^{-u})^{-1} 是 sigmoid 函数。与 GA 不同,NPO 在遗忘延续在当前模型下已经比原始模型下可能性小得多时,会减弱遗忘更新。确实,如果 r_θ = log(π_θ(y|x)/π_θ₀(y|x)),则梯度按 σ(β r_θ) 缩放,当 r_θ 为大的负数时消失。然而,由于 NPO 将当前似然与原始模型似然 π_θ₀(y|x) 进行比较,遗忘更新的大小取决于每个样本的参考模型得分,因此可能随序列长度或参考似然而变化。SimNPO [15] 通过使用无参考、长度归一化的 NPO 目标变体来消除这种依赖性。  

尽管方程 1 和 2 定义了常见的遗忘侧目标,实际的遗忘方法通常将它们与保留正则化器结合以改善遗忘-保留权衡。这导致了形式如下的目标:  
min_θ L_fg(θ; D_fg) + λ_ret L_ret(θ; D_ret, θ₀),  (3)  
其中 L_fg 鼓励抑制遗忘数据,而 L_ret(在 D_ret 上计算)阻止与原始模型 π_θ₀ 的不必要漂移。保留项通常实现为相对于 π_θ₀ 的 KL 惩罚,或保留样本上的交叉熵损失。  

上述遗忘损失的主要局限性在于它们只指定了哪些内容应该变得不太可能,而没有指定模型应该做什么代替。概率 π_θ(y|x) 可以通过将质量集中在少数几个替代延续上、广泛散布质量、或更一般地降低下一 token 分布来减小。由于这些序列级目标没有指定在每个下一 token 预测时应该发生什么,它们也没有提供直接的标准来判断原始遗忘集 token 何时相对于其替代品已经变得足够不主导。此外,尽管这些目标提供了强大且广泛使用的基线,记忆遗忘的计算成本可能很大。在实践中,必须要么提前固定遗忘预算(即微调轮数),要么定期评估中间模型以决定返回哪一个。后者需要下游的遗忘-保留验证数据,因为检查点是通过外部指标选择的,而不是

相似文章

自模式连通性引导的基于流形表示遗忘的近似机器遗忘

arXiv cs.LG

本文提出 ManiF-SMC,一种完全在表征空间中运行的近似机器遗忘方法,通过将擦除样本从其原始学习的流形表征推向保留数据中其最近的语义邻居,并使用由自模式连通性模块引导的基于边界的三元组损失来实现自适应边界。

模型遗忘目标因语言功能不同而异

arXiv cs.CL

本文认为,LLM中的遗忘应依赖于目标,提出了一种基于余弦的元学习RMU变体用于危险知识遗忘,以及一种结合探针方向的多层目标用于毒性遗忘,在四个7-8B模型上取得了显著效果。

自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘

arXiv cs.CL

本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。

CRMA: 一种用于LLM模块化持续微调的谱界主干

arXiv cs.LG

CRMA引入了一种谱界残差适配器,通过Sinkhorn归一化强制实现双随机混合矩阵,使LLM能够持续微调而不发生灾难性遗忘。在Mistral-7B和Gemma-2-9B上的实验结果表明,与冻结基底的基线相比,后向迁移得到改善,遗忘减少。