谱遗忘恢复:无需重新训练即可事后恢复受损能力
摘要
本文提出DG-Hard,一种事后谱修复方法,仅使用预训练和微调检查点,即可恢复因微调而受损的能力,无需重新训练。该方法将Donoho-Gavish硬奇异值阈值应用于权重更新,去除噪声并恢复退化的性能。
arXiv:2605.20296v1 公告类型:新
摘要:针对目标任务微调语言模型通常会损害训练数据未曾明确威胁的能力。我们研究这种被称为灾难性遗忘的现象,并提出一种事后修复方案,仅使用预训练检查点 $W_{\mathrm{base}}$ 及其微调后的衍生版本 $W_{\mathrm{ft}}$。目标并非简单地将模型恢复至基线检查点,而是在保留目标任务增益及任何有益的保留改进的同时,恢复因微调而受损的能力。我们引入DG-Hard,一种仅需检查点的谱修复方法,用于微调更新 $\Delta = W_{\mathrm{ft}} - W_{\mathrm{base}}$。DG-Hard将 $\Delta$ 视为嵌入在类似独立同分布噪声残差中的低秩任务对齐信号,而梯度下降没有动机去除该残差。它对每个权重增量矩阵应用Donoho-Gavish硬奇异值阈值,保留更新中结构化的高能量部分并去除谱背景。这将修复简化为封闭形式的SVD过滤步骤,无需依赖数据的调参。评估是一大难点:平均准确率掩盖了单个基准的失败,而简单的恢复得分会奖励那些简单回退至基线的模型。因此,我们引入一个分区条件指标,分别追踪修复、保留、未损伤及目标任务保留情况。在14个(模型、任务)设置和九个跨领域保留基准中,DG-Hard在事后基线中实现了最强的平衡修复。DG-Hard还恢复了因良性微调而在三个独立安全轴上退化的安全对齐,尽管未使用任何对齐数据。这些结果表明,微调引起的能力丧失部分并非专业化的不可避免结果,而是权重更新中可去除的谱残留。
查看缓存全文
缓存时间: 2026/05/21 06:22
# 谱系遗忘修复:无需重新训练的后验能力恢复
来源:https://arxiv.org/html/2605.20296
Aarash Abro
Zeta Labs
aarash@zetasolutions\.org
& Muhammad Tahir
拉合尔管理科学大学
tahir@lums\.edu\.pk
###### 摘要
为了某个目标任务对语言模型进行微调,通常会损害那些训练数据从未明确威胁过的能力。我们研究了这一现象(称为灾难性遗忘),并提出了一种后验修复方案,该方案仅使用预训练检查点 \(W_{\mathrm{base}}\) 及其微调后代 \(W_{\mathrm{ft}}\)。目标并非简单地将模型恢复至基础检查点,而是修复因微调而受损的能力,同时保留目标任务的提升以及任何有益的保留项改进。我们引入了 DG-Hard,一种针对微调更新 \(\Delta=W_{\mathrm{ft}}-W_{\mathrm{base}}\) 的、仅需检查点的谱系修复方法。DG-Hard 将 \(\Delta\) 视为一个低秩、任务对齐的信号,嵌入在类似独立同分布(IID)的噪声残差中(梯度下降没有动机去移除这种残差),并对每个权重差值矩阵应用 Donoho-Gavish 硬奇异值阈值,保留更新中结构化的高能部分,移除谱系主体。这使得修复简化为闭式的 SVD 过滤步骤,无需依赖数据进行调参。一个核心难点在于评估:平均准确率会掩盖各个基准测试的失败,而简单的恢复得分会奖励那些只是趋向基础模型的模型。因此,我们引入了一种基于分区条件的指标,分别追踪修复、保留、未受损以及目标任务的保持情况。在 14 个(模型,任务)设置和九个跨领域保留基准测试中,DG-Hard 在后验基线方法中实现了最强的平衡修复。DG-Hard 还能恢复因良性微调而退化的安全对齐(在三个独立安全轴上测试),尽管没有使用任何对齐数据。这些结果表明,部分由微调引起的能力损失并非专长化必然导致的结果,而是权重更新本身中一种可移除的谱系残留。代码可在 https://github.com/BrickleRex/dghard 找到。
## 1 引言
微调可以在目标任务上改进模型,同时破坏预训练检查点中已有的能力。在我们的实验中,在医学领域微调 Qwen3.5-4B 提高了医学问答的准确性,但大幅降低了数学推理的准确性。这并非孤立的失败模式:在我们评估的 14 个(模型,任务)微调单元中,有 13 个至少出现了单个基准测试的崩溃(表 9 (https://arxiv.org/html/2605.20296#A5.T9),附录 E (https://arxiv.org/html/2605.20296#A5))。此类失败是现代大型模型中*灾难性遗忘* \[23 (https://arxiv.org/html/2605.20296#bib.bib5)\] 的表现形式:适应新目标可能会覆盖、扭曲或抑制基础模型已获得的行为 \[27 (https://arxiv.org/html/2605.20296#bib.bib35), 6 (https://arxiv.org/html/2605.20296#bib.bib18)\]。微调是预训练模型专业化的标准方式 \[3 (https://arxiv.org/html/2605.20296#bib.bib14), 9 (https://arxiv.org/html/2605.20296#bib.bib21), 5 (https://arxiv.org/html/2605.20296#bib.bib16), 24 (https://arxiv.org/html/2605.20296#bib.bib32)\],但其目标函数中没有任何项要求保留不相关的能力。其后果已在通用知识准确性 \[19 (https://arxiv.org/html/2605.20296#bib.bib29)\]、对齐模型的安全对齐 \[26 (https://arxiv.org/html/2605.20296#bib.bib34)\] 以及训练数据范围外预训练特征的几何扭曲 \[17 (https://arxiv.org/html/2605.20296#bib.bib11)\] 等方面得到记录。检查点同时以两种方式移动:一种是降低目标任务损失的结构化更新,另一种是来自许多小批量 SGD 步骤的残差,其噪声尺度取决于批次大小 \[13 (https://arxiv.org/html/2605.20296#bib.bib9), 15 (https://arxiv.org/html/2605.20296#bib.bib8)\]。损失函数只奖励前者;后者在与其它能力相关的重要方向上累积,使得微调后的检查点成为任务对齐信号与附带变化的混合体。
我们研究的是已经发生的遗忘的后验修复。仅给定基础检查点 \(W_{\mathrm{base}}\) 和微调检查点 \(W_{\mathrm{ft}}\),目标是恢复受损的保留能力,同时保留微调本应产生并且已经附带产生的提升。向基础模型回归可以廉价地恢复遗忘的行为,但也会移除任务对齐的更新;有效的修复必须区分微调增量 \(\Delta=W_{\mathrm{ft}}-W_{\mathrm{base}}\) 中承载新任务的部分和造成附带损害的部分。
现有的后验方法在坐标空间中做出这个决策,无论是通过标量插值(WiSE-FT,34 (https://arxiv.org/html/2605.20296#bib.bib45))、随机丢弃(DARE,36 (https://arxiv.org/html/2605.20296#bib.bib48))、基于幅度和符号的剪枝(TIES,35 (https://arxiv.org/html/2605.20296#bib.bib47))还是遗忘感知剪枝(FAPM,11 (https://arxiv.org/html/2605.20296#bib.bib23))。所有这些方法都面临相同的表示问题:任务相关条目和有害的残差条目在幅度、符号和位置上交织在一起。相同的更新在奇异值空间中更容易分离。在微调增量中,谱系分裂成一个与随机矩阵预测相匹配的宽大主体 \[20 (https://arxiv.org/html/2605.20296#bib.bib4)\] 和少数携带任务对齐更新的离群尖峰。这两部分都在先前工作中得到独立支持:微调权重更新是秩亏的 \[10 (https://arxiv.org/html/2605.20296#bib.bib22), 1 (https://arxiv.org/html/2605.20296#bib.bib12)\],而训练权重的谱系在有限数量的离群值之后拟合了 Marchenko-Pastur 主体 \[33 (https://arxiv.org/html/2605.20296#bib.bib41), 32 (https://arxiv.org/html/2605.20296#bib.bib40)\];我们在附录 A (https://arxiv.org/html/2605.20296#A1) 中对我们自己的增量验证了这两点(在第 3 节 (https://arxiv.org/html/2605.20296#S3) 中形式化)。修复变成了一个矩阵去噪问题:保留结构,回归主体。
我们用 DG-Hard 实例化了这一点,这是一种闭式谱系修复方法:每个微调增量矩阵的 SVD 在 Donoho-Gavish 切割点 \[7 (https://arxiv.org/html/2605.20296#bib.bib17)\] 处进行硬阈值处理,存活的奇异分量形成一个谱系剪枝后的增量 \(\Delta^{*}\),从而得到修复后的检查点 \(W^{*}=W_{\mathrm{base}}+\Delta^{*}\)(算法 1 (https://arxiv.org/html/2605.20296#alg1))。该方法无需数据、无需梯度、无需训练,并且可以在单个 GPU 上在几分钟内运行。
#### 贡献。
1. 1. 我们将灾难性遗忘的后验修复形式化为一个恢复-保留问题:从微调检查点恢复受损的保留能力,同时保留目标任务的提升和附带的保留项改进。
2. 2. 我们识别出微调增量中的谱系结构。经验上,有害残差集中在奇异值主体中,而任务相关更新表现为奇异值尖峰(附录 A (https://arxiv.org/html/2605.20296#A1))。这解释了为什么标量插值和坐标级剪枝面临不利的权衡。我们提出了 DG-Hard,一种无需数据的修复方法,对每个增量矩阵应用 Donoho-Gavish 硬阈值 \[7 (https://arxiv.org/html/2605.20296#bib.bib17)\],并从保留的奇异分量重建检查点。
3. 3. 我们引入了一种基于分区条件的评估方法,分别报告受损测量上的恢复、改进测量上的保留以及未变化和目标任务测量上的保持。在 14 个(模型,任务)单元和 9 个保留基准测试中,DG-Hard 在后验基线方法中实现了最佳的恢复-保留权衡(表 1 (https://arxiv.org/html/2605.20296#S4.T1),图 1 (https://arxiv.org/html/2605.20296#S1.F1))。
图 1:每个队列的恢复 \(\times\) 保留。每个面板绘制受损分区上的 % 修复分数(x 轴)与改进分区上的 % 保留分数(y 轴),如第 4.3 节 (https://arxiv.org/html/2605.20296#S4.SS3) 中所定义。理想角点是 (100,100),虚线轮廓标记 HM(% 修复, % 保留) = 80。DG-Hard(蓝色菱形)在所有五个队列中最接近理想角点。FAPM \[11 (https://arxiv.org/html/2605.20296#bib.bib23)\] 强烈恢复受损测量,但牺牲了改进测量;V-SoftMask \[14 (https://arxiv.org/html/2605.20296#bib.bib26)\] 保留了改进测量,但恢复的损伤较少。
## 2 背景与相关工作
#### 灾难性遗忘。
我们将 McCloskey 和 Cohen \[23 (https://arxiv.org/html/2605.20296#bib.bib5)\] 的连接主义解释进行了扩展,即分布式表示使得任何有益的更新都会扰动编码先前任务的权重 \[27 (https://arxiv.org/html/2605.20296#bib.bib35), 6 (https://arxiv.org/html/2605.20296#bib.bib18)\]。Kumar 等人 \[17 (https://arxiv.org/html/2605.20296#bib.bib11)\] 在过参数化线性设置中形式化了现代实例,Luo 等人 \[19 (https://arxiv.org/html/2605.20296#bib.bib29)\] 和 Qi 等人 \[26 (https://arxiv.org/html/2605.20296#bib.bib34)\] 记录了其在当代 LLM 中的经验性复制,覆盖通用知识和安全基准测试。
#### 训练时方法。
训练时方法修改优化步骤本身,并分为三个子家族:参数移动正则化器、通过逐单元重要性的梯度掩码、以及针对存储的过去任务数据的重放。
- 参数移动正则化器惩罚按每个参数重要性加权的更新,主要区别在于重要性估计方式:EWC \[16 (https://arxiv.org/html/2605.20296#bib.bib27)\] 使用 Fisher 对角线,SI \[37 (https://arxiv.org/html/2605.20296#bib.bib49)\] 使用路径积分度量在线贡献到先前任务损失的程度,而 MAS \[2 (https://arxiv.org/html/2605.20296#bib.bib13)\] 使用网络输出平方 L2 范数的梯度(无需标签,因为它从无标签校准数据估计重要性)。我们还与一个通用的 L1-reg 基线进行了比较,该基线惩罚 \(\|W-W_{\mathrm{base}}\|_1\) 而无需任务信息。
- 梯度掩码方法识别哪些单元承载预训练能力并减缓通过它们的梯度流:DAS \[14 (https://arxiv.org/html/2605.20296#bib.bib26)\] 将每个梯度乘以 \((1-\text{importance})\),其中重要性来自对校准数据的 dropout-KL 代理;CoFiTune \[38 (https://arxiv.org/html/2605.20296#bib.bib50)\] 通过一个粗粒度的层范围过滤器(将过程限制在经验选择的层切片上)和一个基于 KL/dropout 鲁棒性的精细评分来扩展它。
- 基于重放的方法混合或投影存储的过去任务示例(GEM \[18 (https://arxiv.org/html/2605.20296#bib.bib28)\],Experience Replay \[4 (https://arxiv.org/html/2605.20296#bib.bib15)\]),但假设可以访问代表性的预训练样本,这对于现代 LLM 来说是不可用的,因为它们的预训练语料库是专有的且规模达到 TB 级别。
#### 参数高效微调。
LoRA \[10 (https://arxiv.org/html/2605.20296#bib.bib22)\] 将每个权重矩阵上的微调更新约束为低秩分解 \(BA\),其中 \(r \ll \min(m, n)\),同时保持基础权重冻结;部署后的模型仍然会在推理时合并 base + LoRA,因此遗忘可能持续存在于合并后的权重中。Shuttleworth 等人 \[30 (https://arxiv.org/html/2605.20296#bib.bib38)\] 通过直接的谱系比较表明,这种低秩约束迫使 LoRA-FT 更新引入大致正交于预训练谱系的“入侵者”奇异方向,并且这些入侵者方向因果性地驱动遗忘(通过对它们的奇异值进行后验干预来验证)。
#### 后验模型合并。
最接近我们工作的家族在后验阶段对 \(\Delta=W_{\mathrm{ft}}-W_{\mathrm{base}}\) 进行操作,通过廉价、无需数据的变换。这些方法最初针对多任务模型合并,其中多个微调检查点被组合成一个;对于单个微调,它们多任务聚合步骤(符号选举、任务向量平均值)退化为恒等映射,留下每个向量的预处理作为 \((W_{\mathrm{base}}, W_{\mathrm{ft}})\) 对上的后验修复。
- WiSE-FT \[34 (https://arxiv.org/html/2605.20296#bib.bib45)\] 在检查点之间线性插值,\(W^{*} = (1-\alpha)W_{\mathrm{base}} + \alpha W_{\mathrm{ft}}\),用一个标量权衡预训练和微调行为。
- Task Arithmetic \[12 (https://arxiv.org/html/2605.20296#bib.bib24)\] 将 \(\Delta\) 引入为任务向量,并研究其上的代数运算(否定、加法、类比)。
- TIES-Merging \[35 (https://arxiv.org/html/2605.20296#bib.bib47)\] 修剪每个任务向量的低幅度条目,在向量之间选举每个参数的共识符号,并仅平均与该符号对齐的条目,解决了冗余和符号不一致作为合并干扰源的问题。
- DARE \[36 (https://arxiv.org/html/2605.20296#bib.bib48)\] 以概率 \(p\) 随机丢弃 \(\Delta\) 条目,并通过 \(1/(1-p)\) 重新缩放幸存者,设计为在合并之前稀疏化微调增量的预处理步骤。
- FAPM \[11 (https://arxiv.org/html/2605.20296#bib.bib23)\] 用结合绝对变化幅度和针对预训练权重的相对变化惩罚的遗忘感知标准对每个条目评分,然后修剪低分条目。
- Fisher 加权平均 \[21 (https://arxiv.org/html/2605.20296#bib.bib30)\] 根据每个参数的经验 Fisher 重要性加权,额外需要少量标记训练样本。
每个方法的超参数见附录 H.1 (https://arxiv.org/html/2605.20296#A8.SS1)。
#### 谱系收缩与我们的区别。
谱系框架适合微调,因为权重更新经验上是秩亏的(10 (https://arxiv.org/html/2605.20296#bib.bib22);附录 A (https://arxiv.org/html/2605.20296#A1) 中有更广泛的证据),而随机矩阵理论提供了匹配的去噪器。Marchenko-Pastur 定理 \[20 (https://arxiv.org/html/2605.20296#bib.bib4)\] 固定了 IID 噪声矩阵的渐近谱系,Donoho-Gavish 硬阈值 \[7 (https://arxiv.org/html/2605.20296#bib.bib17)\] 识别了信号与噪声之间的 AMSE 最优切割点(8 (https://arxiv.org/html/2605.20296#bib.bib19) 扩展至最优的连续收缩器)。先前的后验方法在坐标空间(TIES, DARE, FAPM)中操作,作为单个标量(WiSE-FT, Task Arithmetic),或通过带标签数据的 Fisher 加权,而我们在奇异值空间中操作并应用这个统计上最优的硬阈值,据我们所知,这是首次将此类方法应用于微调权重增量的后验遗忘修复。
## 3 方法
我们提出 DG-Hard:一种后验、无需数据、无需梯度的修复方法,通过对其 SVD 应用 Gavish 和 Donoho \[7 (https://arxiv.org/html/2605.20296#bib.bib17)\] 的最优硬奇异值阈值,剥离微调更新中的 IID 噪声残差。该过程仅需基础检查点 \(W_{\mathrm{base}}\) 和微调检查点 \(W_{\mathrm{ft}}\)。相似文章
自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘
本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。
用于领域泛化数据集蒸馏的频谱梯度手术
本文引入了领域泛化数据集蒸馏(DGDD),这是一个新的问题设定,旨在实现蒸馏数据集的分布外泛化,并提出了频谱梯度手术(SGS),通过利用频谱域中的跨域梯度一致性来解耦类判别信息和领域特定信息。
遗忘并非擦除:通过传输键恢复潜在知识
本文认为神经网络中的灾难性遗忘并非擦除,而是一个接口对齐问题。它提出了'传输键'来从顺序训练的模型中恢复潜在的任务特定特征,展示了在分割CIFAR-100上的显著性能恢复。
DART: 结构化工具代理的语义可恢复性
DART 为结构化工具代理引入了语义可恢复性,形式化了一个标准,用于确定在做出下游承诺后,本地检查点恢复是否仍然有效。在三个基于LLM的领域进行的实验表明,它正确恢复了基线本地恢复失败的所有承诺敏感案例,且安全审计未发现不安全的回滚。
从自由能视角看后训练中能力激发与能力创造的区别
本文提出了一个基于自由能视角的框架,以区分大型语言模型后训练中的能力激发与能力创造,论证指出监督微调(SFT)和强化学习(RL)通常是对现有行为进行重新加权,而非创造新行为。