面向大型语言模型归因引导的持续学习
摘要
本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。
arXiv:2605.05285v1 公告类型:新文章
摘要:大型语言模型(LLMs)在持续学习中往往遭受灾难性遗忘:在顺序学习新任务后,模型在早期任务上的表现会变差。现有方法通过数据重放、参数冻结或正则化来缓解灾难性遗忘。然而,这些方法缺乏对 LLMs 内部知识分布的语义感知。因此,它们无法区分哪些参数应当保留,哪些应当更新。我们提出了一种面向 LLMs 的归因引导持续微调框架。我们的方法估计每个 Transformer 层中特定任务的逐元素参数重要性,并使用这些分数来调节梯度。对先前任务重要的参数接收较小的更新,而相关性较弱的参数则保持可塑性以学习新任务。在持续学习基准上的实验表明,我们的方法一致优于基线方法,在更好保留旧任务能力的同时,在新任务上也保持了具有竞争力的性能。
查看缓存全文
缓存时间: 2026/05/08 06:52
# 面向大语言模型的归因引导持续学习
来源: https://arxiv.org/html/2605.05285
刘 Yazheng1, 万 Yuxuan1, 许 Rui1, 张 Xi2, 谢 Sihong1, 熊 Hui1 1香港科技大学(广州), 中国广州 2北京邮电大学, 中国北京
###### 摘要
大语言模型(LLMs)在持续学习中经常遭受灾难性遗忘:在顺序学习新任务后,它们在早期任务上的表现会下降。现有的方法通过数据回放、参数冻结或正则化来缓解灾难性遗忘。然而,这些方法缺乏对 LLM 内部知识分布的语义感知。因此,它们无法区分哪些参数应该保留,哪些应该更新。我们提出了一种面向 LLM 的归因引导持续微调框架。我们的方法估计每个 Transformer 层中针对特定任务的逐元素参数重要性,并利用这些分数来调节梯度。对先前任务重要的参数接收较小的更新,而相关性较低的那些参数则保持可塑性以学习新任务。在持续学习基准上的实验表明,我们的方法 consistently 优于基线方法,在保持旧任务记忆的同时,在新任务上保持了具有竞争力的性能。
## 1 引言
大语言模型(LLMs)Achiamet al. (2023) (https://arxiv.org/html/2605.05285#bib.bib4); Touvronet al. (2023) (https://arxiv.org/html/2605.05285#bib.bib5); Liuet al. (2024) (https://arxiv.org/html/2605.05285#bib.bib6); Comaniciet al. (2025) (https://arxiv.org/html/2605.05285#bib.bib17); Huiet al. (2024) (https://arxiv.org/html/2605.05285#bib.bib18) 在多样化的任务中取得了卓越的性能,例如多步推理 Weiet al. (2022) (https://arxiv.org/html/2605.05285#bib.bib7); Wanget al. (2022) (https://arxiv.org/html/2605.05285#bib.bib19),指令跟随 Ouyanget al. (2022) (https://arxiv.org/html/2605.05285#bib.bib20); Chunget al. (2024) (https://arxiv.org/html/2605.05285#bib.bib8),以及代码生成 Roziereet al. (2023) (https://arxiv.org/html/2605.05285#bib.bib21); Chenet al. (2021) (https://arxiv.org/html/2605.05285#bib.bib22)。然而,LLMs 通常在静态的、广域数据上进行训练。这可能导致当目标域发生变化时性能下降 Chenet al. (2023) (https://arxiv.org/html/2605.05285#bib.bib10); Dhingraet al. (2022) (https://arxiv.org/html/2605.05285#bib.bib11); Luet al. (2025a) (https://arxiv.org/html/2605.05285#bib.bib12)。为了适应下游任务同时保留先验知识,研究人员使用持续学习方法 Van de Venet al. (2022) (https://arxiv.org/html/2605.05285#bib.bib13); Wanget al. (2024) (https://arxiv.org/html/2605.05285#bib.bib14)。持续学习在一系列任务上训练模型,但面临一个称为灾难性遗忘 McCloskey and Cohen (1989) (https://arxiv.org/html/2605.05285#bib.bib15); McClellandet al. (1995) (https://arxiv.org/html/2605.05285#bib.bib16) 的挑战:在新任务上微调 LLM 会显著降低其在之前学习任务上的性能。
现有方法已被提出以缓解持续学习中的灾难性遗忘。回放方法 Sunet al. (2019) (https://arxiv.org/html/2605.05285#bib.bib25); Huanget al. (2024b) (https://arxiv.org/html/2605.05285#bib.bib27); Scialomet al. (2022) (https://arxiv.org/html/2605.05285#bib.bib26); Abbeset al. (2025) (https://arxiv.org/html/2605.05285#bib.bib28) 保留来自先前任务的示例,并将其与当前任务数据一起训练。正则化方法 Zhanget al. (2023) (https://arxiv.org/html/2605.05285#bib.bib32); Rebuffiet al. (2024) (https://arxiv.org/html/2605.05285#bib.bib33); Li and Hoiem (2017) (https://arxiv.org/html/2605.05285#bib.bib34) 惩罚参数空间中与前一个模型的大偏差。冻结方法则固定选定的 LLM 参数,通常在早期层,以减少遗忘 Zhenget al. (2025) (https://arxiv.org/html/2605.05285#bib.bib35)。然而,这些方法缺乏对知识和任务特定行为如何在 LLM 参数之间分布的机制性理解。
为了理解 LLMs 在持续学习中的内部机制,我们探讨了 LLMs 在不同任务上的重要参数。令 $\theta$ 表示模型参数,$\mathcal{W}^{(l)}(\theta)$ 表示其第 $l$ 层中的模型参数集,且 $W^{(l)} \in \mathcal{W}^{(l)}(\theta)$ 表示单个模型参数。对于任务 $\mathcal{T}$,我们使用第 4.1.2 节 (https://arxiv.org/html/2605.05285#S4.SS1.SSS2) 中介绍的归因方法计算每个参数相对于下一个 token logits 的重要性。然后,我们选择 $\mathcal{W}^{(l)}$ 中最重要的前 $K$ 个元素,记为 $\mathcal{P}_K\big(W^{(l)};\theta,\mathcal{T}\big)$。给定两个任务 $\mathcal{T}_1$ 和 $\mathcal{T}_2$,我们比较独立单任务微调与顺序持续微调,如图 3 (https://arxiv.org/html/2605.05285#S4.F3)(a,b) 所示。在单任务设置中,预训练的 LLM 在每个任务上分别微调,产生特定于任务的模型 $\theta'_1$ 和 $\theta'_2$。我们计算 $\mathcal{P}_K\big(W^{(l)};\theta'_1,\mathcal{T}_1\big)$ 和 $\mathcal{P}_K\big(W^{(l)};\theta'_2,\mathcal{T}_2\big)$。在持续设置中,预训练模型在 $\mathcal{T}_1$ 和 $\mathcal{T}_2$ 上顺序微调,得到最终参数 $\theta_2$。我们获得 $\mathcal{P}_K\big(W^{(l)};\theta_2,\mathcal{T}_1\big)$ 和 $\mathcal{P}_K\big(W^{(l)};\theta_2,\mathcal{T}_2\big)$。最后,我们量化 $\mathcal{P}_K\big(W^{(l)};\theta'_1,\mathcal{T}_1\big)$ 和 $\mathcal{P}_K\big(W^{(l)};\theta'_2,\mathcal{T}_2\big)$ 之间的相似性,以及 $\mathcal{P}_K\big(W^{(l)};\theta_2,\mathcal{T}_1\big)$ 和 $\mathcal{P}_K\big(W^{(l)};\theta_2,\mathcal{T}_2\big)$ 之间的相似性。
参见标题 Figure 1: 单任务和持续学习中任务重要参数的相似性。Figure 1 (https://arxiv.org/html/2605.05285#S1.F1) 显示了在 Llama-3.2-Instruct-3B Grattafioriet al. (2024) (https://arxiv.org/html/2605.05285#bib.bib37) 上使用 LoRA Huet al. (2022) (https://arxiv.org/html/2605.05285#bib.bib36) 微调的结果,其中 $\mathcal{T}_1$ 是摘要生成,$\mathcal{T}_2$ 是代码补全。在独立的单任务设置中(粉色和黄色),前 $K$ 重叠和 Spearman 相关性在整个层中保持低分,表明重要参数随任务变化。相比之下,在顺序持续学习后(蓝色和紫色),两种相似性指标均增加。因此,用于学习 $\mathcal{T}_2$ 的更新可能会修改对 $\mathcal{T}_1$ 也至关重要的参数,从而引起干扰和潜在的遗忘。
参见标题 Figure 2: 我们提出的框架的动机和概述。(a): 在单任务微调中,预训练的 LLM 分别适应任务 1 和任务 2,产生特定于任务的模型,其前 $K$ 个重要参数之间的重叠度较低。这表明不同的任务依赖于不同的参数子集。(b): 在持续学习中,两个任务的重要参数在最终模型中高度重叠,表明学习任务 2 可能会覆盖对任务 1 重要的参数。(c): 现有方法缺乏对知识如何在 LLM 参数中分布的机制性理解。(d): 我们的框架获取参数重要性并保护重要参数,同时允许不太重要的参数适应新任务。受此观察的启发,我们提出了一种归因感知的持续微调框架,通过使用模型参数的重要性来缓解遗忘。与在持续学习过程中将所有参数同等对待不同,我们的方法首先通过基于归因的重要性估计过程识别对之前学习任务至关重要的参数。由此产生的特定于任务的后验知识随后用于指导后续微调,通过选择性限制对先验知识重要的参数的更新,同时让不太关键的参数可用于适应。我们在完全监督微调和基于 LoRA 的适应设置下的大型语言模型上评估了我们的框架,它 consistently 优于现有的持续微调基线。
## 2 相关工作
LLMs 中的持续学习。近期关于 LLMs 持续学习的工作采用经典策略来缓解灾难性遗忘,包括正则化、回放和参数冻结。在基于正则化的方法中,CLoRA Luet al. (2025b) (https://arxiv.org/html/2605.05285#bib.bib44) 在子空间中正则化 LoRA 更新,以减少无需回放的干扰。基于回放的方法通过重用或合成旧任务信息来缓解遗忘。SSR Huanget al. (2024a) (https://arxiv.org/html/2605.05285#bib.bib43) 使用 LLMs 生成合成数据,然后使用另一个 LLM 精炼并选择高质量样本进行复习。KPIG Heet al. (2025) (https://arxiv.org/html/2605.05285#bib.bib42) 基于信息增益选择回放样本。基于冻结的方法通过仅更新一小部分参数或添加的模块来保留先验知识。SAPT Zhaoet al. (2024) (https://arxiv.org/html/2605.05285#bib.bib41) 通过共享注意力学习和选择模块来学习和选择参数高效块。LoRAMoE Douet al. (2024) (https://arxiv.org/html/2605.05285#bib.bib38) 冻结骨干网并添加 MoE 风格的 LoRA 适配器,而这种方法 Zhenget al. (2025) (https://arxiv.org/html/2605.05285#bib.bib35) 冻结 LLM 的下层并微调上层。然而,现有方法很少从 LLMs 的机制视角分析持续学习,使得参数重要性的任务特定分布很大程度上未被探索。
## 3 背景
LLMs 背景。大语言模型(LLMs)可以被公式化为函数的深层组合,这些函数逐步转换 token 表示 Aubryet al. (2024) (https://arxiv.org/html/2605.05285#bib.bib1)。给定一个被 tokenize 为 $x=[x_1,...,x_m]$ 的输入 prompt,每个 token $x_i$ 被映射到 $d$ 维嵌入并增强位置信息,产生初始隐藏状态 $h_i^{(0)} \in \mathbb{R}^{1 \times d}$。由此产生的序列表示为 $H^{(0)}=[h_1^{(0)};...;h_m^{(0)}] \in \mathbb{R}^{m \times d}$。
这些表示随后由 $L$ 个 Transformer 块处理,每个块包含多头自注意力(MHA)、前馈网络(FFN)、层归一化(LN)和残差连接。令 $H^{(l)}$ 表示第 $l$ 个块之后的隐藏状态。第 $l+1$ 个块定义为
$$
\begin{aligned}
f^{(l)} &= \mathrm{MHA}\big(\mathrm{LN}(H^{(l)})\big), \\
g^{(l)} &= \mathrm{LN}\big(H^{(l)} + f^{(l)}\big), \\
H^{(l+1)} &= H^{(l)} + f^{(l)} + \mathrm{FFN}\big(g^{(l)}\big).
\end{aligned}
\tag{1}
$$
经过 $L$ 层后,$H^{(L)}$ 被投影到词汇空间以获得 logits:
$$
Z = \mathrm{LN}(H^{(L)}) W_{\mathrm{vocab}} \in \mathbb{R}^{m \times |\mathcal{V}|},
\tag{2}
$$
其中 $\mathcal{V}$ 表示词汇表,$|\mathcal{V}|$ 是其大小,$W_{\mathrm{vocab}} \in \mathbb{R}^{d \times |\mathcal{V}|}$ 是输出嵌入矩阵。下一个预测的 token 索引是 $\hat{j} = \arg\max_{j \in \{1,...,|\mathcal{V}|\}} Z_{m,j}$,这对应于预测的 token $\hat{x}_{m+1} = \mathcal{V}[\hat{j}]$。
持续学习背景。在持续学习中,LLM 在一序列任务 $\{\mathcal{T}_1, \mathcal{T}_2, ..., \mathcal{T}_T\}$ 上训练,其中 $T$ 表示任务的总数。我们使用 $t \in \{1, ..., T\}$ 来索引训练阶段及其对应的任务。每个任务 $\mathcal{T}_t$ 关联一个数据集 $\mathcal{D}_t = \{(x^{(k)}, y^{(k)})\}_{k=1}^{N_t}$,其中 $x^{(k)}$ 和 $y^{(k)}$ 分别表示第 $k$ 个示例的输入 prompt 和目标响应。令 $\theta_t$ 表示在任务 $\mathcal{T}_t$ 上训练后的模型参数。在阶段 $t$,模型从 $\theta_{t-1}$ 初始化,并使用自回归下一个 token 预测目标在当前数据集 $\mathcal{D}_t$ 上进行优化:
$$
\mathcal{L}_t(\theta) = -\mathbb{E}_{(x^{(k)}, y^{(k)}) \sim \mathcal{D}_t} \left[ \frac{1}{n} \sum_{j=1}^n \log p_\theta \left( y^{(k)}_j \mid x^{(k)}, y^{(k)}_{<j} \right) \right].
\tag{3}
$$
## 4 方法
我们为 LLMs 中的持续学习提出了一种重要性引导的微调框架。对于每个任务,我们的方法首先估计模型参数的逐元素重要性分数,以衡量其特定于任务的相关性(第 4 节 (https://arxiv.org/html/2605.05285#S4))。在微调阶段,具有高重要性的参数接收较小的更新,而低重要性的参数则自由更新。这允许模型适应新任务,同时减少对先前获得知识的干扰(第 4.2 节 (https://arxiv.org/html/2605.05285#S4.SS2))。
### 4.1 计算 LLM 参数的逐元素重要性
我们应用层间相关性传播(LRP)Bachet al. (2015) (https://arxiv.org/html/2605.05285#bib.bib2) 方法来估计 LLM 参数在每一层中的重要性。我们首先回顾标准 LRP 公式及其扩展到 Transformer 架构。然后,与主要将相关性归因于输入特征的先前应用不同,我们调整 LRP 以量化参数对预测的下一个 token logit 的贡献。
#### 4.1.1 基于 LRP 的输入归因
原始 LRP。LRP 通过通过网络向后传播相关性,将预测分数归因于输入神经元。对于一个神经元 $a^{l+1} = \psi([a^{(l)}_1, ..., a^{(l)}_n])$,其中 $\psi$ 可以是线性函数或线性函数与非线性激活的组合,其相关性 $R^{l+1}$ 归因于前一层中的神经元,如下所示:
$$
R^{(l)}_i = \frac{a^{(l)}_i w^l_i}{\sum_{i'} a^{(l)}_{i'} w^l_{i'}} R^{(l+1)},
\tag{4}
$$
其中 $w^l_i$ 表示从神经元 $a^{(l)}_i$ 到神经元 $a^{(l+1)}$ 的权重。对于多层...相似文章
CASCADE:大语言模型在部署期间的基于案例的持续自适应
本文介绍了 CASCADE,这是一个部署时学习框架,允许大型语言模型通过情境记忆和上下文赌博机优化实现持续自适应,而无需修改模型参数。
参数对齐缓解多语言专家语言模型中的灾难性遗忘
本文研究了持续预训练过程中多语言专家语言模型面临的灾难性遗忘问题,并提出了五种参数对齐策略(硬层冻结、软正则化、事后权重还原和模型合并),以在32种训练语言中最小化语言习得成本的同时减轻遗忘。
ReAD:面向大型语言模型的强化引导能力蒸馏
本文提出了 ReAD,这是一种强化引导的能力蒸馏框架,通过考虑大型语言模型中的跨能力迁移来优化 token 预算。与现有基线相比,该方法在提升下游效用的同时,减少了有害溢出。
TALAN:面向大语言模型定向后训练的任务对齐潜在自适应网络
TALAN 引入了一种序列条件潜在侧路径,用于大语言模型的定向后训练,在 STEM/代码基准上以最小的开销实现了显著改进。
分解大语言模型的基本能力:在多任务指令微调中缓解跨任务干扰
本文提出Badit方法,将大语言模型参数分解为正交的高奇异值LoRA专家,以在多任务指令微调中缓解跨任务干扰。