在顺序训练的早退出神经网络中平衡稳定性与可塑性
摘要
本文针对顺序训练的早退出神经网络中的灾难性遗忘问题,提出了两种分别基于弹性权重巩固(Elastic Weight Consolidation)和无遗忘学习(Learning without Forgetting)的方法,旨在在添加新退出点的同时保留早期退出点的性能。
arXiv:2605.05358v1 公告类型:新论文
摘要:早退出神经网络允许输入在中间分类器处退出,从而实现自适应推理,在降低简单样本计算量的同时保持高准确率。在实践中,可以通过向共享骨干网络逐步添加退出点来顺序训练这些退出点;然而,这种顺序训练会导致新引入的退出点干扰先前学习到的退出点,从而降低早期分类器的性能。我们通过保留嵌入在现有退出点中的知识,同时允许新退出点进行专门化训练来解决这一问题。我们提出了两种在不同模型层面操作的替代方法。第一种方法通过保护对先前训练的退出点至关重要的参数来约束学习,而第二种方法则通过网络适应时保留早期退出点的输出分布。这些替代方案直接反映了持续学习中研究的稳定性-可塑性权衡。因此,我们利用弹性权重巩固(Elastic Weight Consolidation)来约束关键权重,并利用无遗忘学习(Learning without Forgetting)来保留输出分布。在标准基准上的实验表明,我们的方法一致性地提高了早退出的性能,相较于现有的顺序训练方法实现了更高的准确率,并在低计算预算下带来了显著的性能加速。
查看缓存全文
缓存时间: 2026/05/08 07:01
# 在顺序训练的提前退出神经网络中平衡稳定性与可塑性
来源:https://arxiv.org/html/2605.05358
###### 摘要
提前退出(Early-exiting)神经网络通过允许输入在中间分类器处退出,实现了自适应推理,从而在保持高准确率的同时减少了简单样本的计算量。在实际应用中,可以通过向共享骨干网络增量式地添加出口来进行顺序训练;然而,这种顺序训练会导致新引入的出口干扰先前学到的出口,从而降低早期分类器的性能。为了解决这个问题,我们在允许新出口专门化的同时,保留了嵌入在现有出口中的知识。我们提出了两种在不同模型层级上操作的方法。第一种方法通过保护对先前训练的出口重要的参数来约束学习,而第二种方法则在网络适应过程中保留早期出口的输出分布。这些替代方案直接反映了持续学习(Continual Learning, CL)中研究的稳定性-可塑性权衡。因此,我们利用弹性权重巩固(Elastic Weight Consolidation, EWC)来约束关键权重,并利用无遗忘学习(Learning without Forgetting, LwF)来保留输出分布。在标准基准上的实验表明,我们的方法一致地提高了提前退出的性能,相比现有的顺序训练方法实现了更高的准确率,并在低计算预算下显著提升了性能速度。
关键词——提前退出神经网络,顺序训练,灾难性遗忘,持续学习
## 1 引言
深度学习模型在严格的延迟、能源和内存限制下的日益普及,推动了资源高效动态架构的发展。与对所有输入执行固定的计算图不同,此类架构会根据输入的难度调整其计算成本,从而在保持高准确率的同时实现高效推理[5 (https://arxiv.org/html/2605.05358#bib.bib5)]。提前退出神经网络(EENNs)是这一范式的代表性实例。EENNs 在骨干网络上增加了多个放置在逐渐增加深度的内部分类器(ICs),一旦达到足够的置信度,推理即可提前终止。简单样本可以使用浅层表示进行分类,而更具挑战性的输入则传播到网络的更深层。这种基于退出的自适应性显著降低了平均推理成本,使 EENNs 非常适合资源受限的应用[2 (https://arxiv.org/html/2605.05358#bib.bib15)]。
为了在实践中实现这些优势,一个关键的设计选择涉及如何训练 EENN 中的多个出口。大多数先前的工作集中在联合训练策略上,即以端到端的方式同时优化骨干网络及其所有出口。联合训练已被证明能带来强大的实证性能,因此已成为主要方法[17 (https://arxiv.org/html/2605.05358#bib.bib26),4 (https://arxiv.org/html/2605.05358#bib.bib14),3 (https://arxiv.org/html/2605.05358#bib.bib4),11 (https://arxiv.org/html/2605.05358#bib.bib1)]。相比之下,顺序训练随着出口添加到现有骨干网络而增量式地进行训练。顺序训练与预训练骨干网络自然契合,因为它能够实现更快的设计时间,并有效分析网络中有意义的预测出现的位置——这对于大型模型是一个有用的特性,因为完全联合训练的计算成本可能过高甚至令人望而却步[24 (https://arxiv.org/html/2605.05358#bib.bib16),22 (https://arxiv.org/html/2605.05358#bib.bib17)]。
基于为每个后续出口采用的具体训练方法,EENNs 的顺序训练方法可分为三大类[11 (https://arxiv.org/html/2605.05358#bib.bib1)]。**不相关训练**(也称为两阶段训练)首先独立训练骨干网络,然后在训练 IC 时将其冻结[20 (https://arxiv.org/html/2605.05358#bib.bib13),23 (https://arxiv.org/html/2605.05358#bib.bib19)]。这种方法对于将预训练模型改装为具有早期退出的模型特别有效,但代价是适应性有限;新出口无法细化早期表示以更好地支持其特定目标。**分支式训练**在解冻仅与当前出口相关的骨干网络段的同时,按顺序引入出口,提供了中等程度的灵活性,并有助于缓解深度架构中的梯度消失或爆炸问题[7 (https://arxiv.org/html/2605.05358#bib.bib24)]。然而,这种前瞻性的方法存在过早冻结的问题:一旦出口训练完成且训练过程深入,该出口的参数就会固定,即使后来的出口揭示了有用的表示结构,也无法进一步细化。**分离训练**通过解冻整个网络进一步放宽了这些约束[11 (https://arxiv.org/html/2605.05358#bib.bib1)]。出口也是按顺序引入的,但是每个出口的训练都与之前的出口联合进行,允许每个分支通过潜在不同的目标捕捉不同抽象层级的特征。尽管这种方法提供了更大的灵活性,但它在每次迭代中对所有骨干参数应用统一更新,而不去识别哪些参数对早期出口至关重要,哪些可以修改以适应新出口。
这些方法面临的一个共同关键挑战是:引入新出口会通过梯度干扰破坏先前学到的表示,随着更多出口的加入,退化情况会加剧[14 (https://arxiv.org/html/2605.05358#bib.bib25)]。这是因为当前方法忽视了参数的异质性重要性,特别是那些已经为早期出口调整过的参数。事实上,一些权重编码了早期出口依赖的关键特征,而其他权重则不那么重要,可以自由调整。因此,区分这些参数类型至关重要,因为它使得在保持新出口有效专门化所需的可塑性的同时,能够选择性地保护关键知识。重要的是,这一挑战并非早期退出网络所独有。在持续学习(CL)中,模型在学习顺序任务时面临类似的困境;它们必须获得新能力(可塑性),同时保留先前学到的知识(稳定性),以减轻灾难性遗忘[19 (https://arxiv.org/html/2605.05358#bib.bib27)]。因此,我们认识到顺序早期退出训练表现出同样的稳定性-可塑性权衡。这种概念上的一致性表明,CL 技术可以经过调整,以保护早期出口的显著特征在顺序训练过程中不被遗忘。值得注意的是,这里的目标不是在 EENN 上实施 CL(例如,Szatkowski 等人 [16 (https://arxiv.org/html/2605.05358#bib.bib8)]),而是利用 CL 的一些正则化技术来减轻 EENN 顺序训练中的表示退化。
基于这一视角,我们提出了一种新颖的两阶段顺序训练方法。在第一阶段,我们仅使用最终出口预训练骨干网络,以便在引入早期出口之前,深层能够发展出丰富的抽象表示[21 (https://arxiv.org/html/2605.05358#bib.bib18),13 (https://arxiv.org/html/2605.05358#bib.bib12)]。在第二阶段,我们通过在新出口引入时显式保留早期出口获得的知识点来进行顺序训练。与 CL 视角一致,我们的目标是抵消由梯度干扰引起的遗忘。如果没有保护机制,优化新出口不可避免地会覆盖先前出口所依赖的表示,导致渐进式退化。因此,我们旨在从两个不同的角度对顺序训练进行正则化,即参数层级和输出分布层级,分别从不同方面解决遗忘问题。在参数层级,遗忘发生是因为优化更新平等对待所有权重,尽管其中一些对现有出口的性能至关重要。通过识别哪些参数是必要的,我们可以选择性地保护它们,允许网络在保留早期出口所依赖的知识的同时安全地适应。这促使我们使用弹性权重巩固(EWC)[9 (https://arxiv.org/html/2605.05358#bib.bib7),15 (https://arxiv.org/html/2605.05358#bib.bib6)],它通过费雪信息估计参数重要性,并约束对关键权重的更新,从而权衡学习过程以平衡稳定性和可塑性。然而,在输出分布层级,最终重要的是早期出口的预测行为在新出口训练时保持稳定。为了实现这一点,我们采用无遗忘学习(LwF)[12 (https://arxiv.org/html/2605.05358#bib.bib3)],它正则化早期输出的输出以匹配其原始预测,在新出口训练时保持功能一致性。EWC 和 LwF 都由可调节的超参数控制,从而明确控制保留早期出口性能与启用新出口适应之间的权衡。
本工作的主要贡献有三点:
- 我们提出了一种新技术来减轻先前学到的表示的退化,以解决 EENN 顺序训练过程中面临的稳定性-可塑性权衡。
- 我们调整了两种 CL 正则化策略:EWC 用于参数级保护,LwF 用于输出分布级一致性,以实现原则性的顺序训练,平衡出口专门化与知识保留。
- 我们在基准架构上展示了相比现有顺序训练方法的一致改进,验证了 CL 方法对 EENNs 的有效性。
## 2 所提出的方法
$\mathbf{x}$
$\Theta_1$
$\Theta_2$
$\Theta_3$
$\Theta_4$
$IC_1$
$IC_2$
$IC_3$
$IC_4$
$\hat{\mathbf{y}}_1$
$\hat{\mathbf{y}}_2$
$\hat{\mathbf{y}}_3$
$\hat{\mathbf{y}}_4$
$\hat{\mathbf{y}}_1$
$\hat{\mathbf{y}}_2$
**图 1:** 所提出的顺序训练方案流程图。灰色表示正则化的参数或输出分布;虚线表示冻结的段。骨干网络由旋转的块 $\Theta_\mu$ 表示,中间分类器由水平块 $IC_\mu$ 表示。每个 $IC_\mu$ 输出一个分布 $\hat{\mathbf{y}}_\mu$。
我们考虑一个由 $M$ 个 IC 组成的 EENN,其中每个骨干子网络 $\mu$ 由 $\{\Theta_1, \dots, \Theta_\mu\}$ 参数化,并产生类概率向量 $\hat{\mathbf{y}}_\mu$(参见图 1 (https://arxiv.org/html/2605.05358#S2.F1)),其中 $\hat{y}_\mu(c)$(对于 $c \in \{1, \dots, C\}$)是与类 $c$ 相关的概率。我们将 IC 的顺序训练框架为由 $\mu \in \{1, 2, \ldots, M\}$ 索引的学习任务序列,其中任务 $\mu$ 对应于训练 $IC_\mu$,同时保留所有先前训练的 IC $\{1, \ldots, \mu-1\}$ 的预测能力。共享骨干参数必须适应所有已训练 IC 的目标,在可塑性(即,为当前任务细化表示的能力)与稳定性(即,保持在早期任务上的性能)之间取得平衡。
为了解决这种稳定性-可塑性权衡,我们在标准分类损失中增加了一个保护先前获得知识的正则化项。训练出口 $\mu$ 的损失函数采用一般形式:
$$
\mathcal{L}_{\mathrm{total}}^{(\mu)} = \mathcal{L}_{\mathrm{CE}}^{(\mu)} + s \lambda \mathcal{R}_{\mathrm{EWC}}^{(\mu)} + (1-s) \rho \mathcal{R}_{\mathrm{LwF}}^{(\mu)} \quad (1)
$$
其中 $\mathcal{L}_{\mathrm{CE}}^{(\mu)}$ 表示出口 $\mu$ 的交叉熵损失,取决于 $\{\Theta_1, \dots, \Theta_\mu\}$ 和 $IC_\mu$ 的参数;$\mathcal{R}_{\mathrm{EWC}}^{(\mu)}$ 和 $\mathcal{R}_{\mathrm{LwF}}^{(\mu)}$ 是减轻早期出口退化的正则化项,分别对应于 EWC(参数级)和 LwF(输出分布级)。它们的相对强度由超参数 $\lambda$ 和 $\rho$ 控制。二元变量 $s \in \{0, 1\}$ 指示哪种正则化策略处于活动状态。
为了说明训练过程,图 1 (https://arxiv.org/html/2605.05358#S2.F1) 显示了在训练出口 3 时每个子网络的状态。在此阶段,前两个块(由 $\Theta_1$ 和 $\Theta_2$ 参数化)及其相应的分类器(产生预测 $\hat{\mathbf{y}}_1$ 和 $\hat{\mathbf{y}}_2$)已经训练完毕。现在我们添加 IC 3,因此,我们需要训练直到出口 3 的整个网络。我们最小化交叉熵损失 $\mathcal{L}_{\mathrm{CE}}^{(3)}$,并辅以应用于先前训练块的正则化项 $\mathcal{R}^{(3)}$,要么约束其参数(EWC),要么保留其预测(LwF)。最后一个块($\Theta_4$)及其相应的分类器在此阶段保持冻结。
### 2.1 参数级正则化
第一种方法通过 EWC 采用参数级正则化,通过惩罚对重要权重的变化来保护对先前训练的出口至关重要的参数。这种重要性分数是使用费雪信息计算的[1 (https://arxiv.org/html/2605.05358#bib.bib10)]。具有大费雪值的参数对应于参数空间中的方向,在这些方向上,微小的扰动会强烈增加先前出口上的交叉熵损失 $\mathcal{L}_{\mathrm{CE}}^{(\nu)}$,因此优先进行保护。
遵循在线 EWC 框架[15 (https://arxiv.org/html/2605.05358#bib.bib6)],参数级正则化定义为
$$
\mathcal{R}_{\mathrm{EWC}}^{(\mu)} = \sum_{\theta_k \in \cup_{i=1}^{\mu-1} \Theta_i} \left( \sum_{\nu=1}^{\mu-1} F_k^{(\nu)} \right) (\theta_k - \theta_k^*)^2 \quad (2)
$$
这里,$\theta_k^* \in \mathbb{R}$ 表示在训练至出口 $\mu-1$ 后参数 $\theta_k \in \cup_{i=1}^{\mu-1} \Theta_i$ 的值。项 $F_k^{(\nu)} \in \mathbb{R}$ 表示测量参数 $\theta_k$ 对出口 $\nu$ 重要性的费雪信息。在实践中,我们使用经验费雪信息[18 (https://arxiv.org/html/2605.05358#bib.bib20)],其计算如下:
$$
F_k^{(\nu)} = \frac{1}{N} \sum_{\mathbf{x} \in \mathcal{D}} \left( \left. \frac{\partial}{\partial \theta_k} \log \hat{y}_\nu(\mathcal{C}(\mathbf{x})) \right|_{\theta_k = \theta_k^*} \right)^2 \quad (3)
$$
其中 $\mathcal{D}$ 表示训练数据集,$N$ 是训练样本的总数,$\hat{y}_\nu(\mathcal{C}(\mathbf{x}))$ 是与真实标签 $\mathcal{C}(\mathbf{x}) \in \{1, \dots, C\}$ 相关的概率。相似文章
通道级语义扰动:面向多样训练范式的不可学习示例
本文系统研究了不同训练范式下的不可学习示例,揭示了预训练权重会削弱现有方法的效果,并提出浅层语义伪装(SSC)方法,通过在语义有效子空间中生成扰动来维持不可学习性。
自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘
本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。
面向大型语言模型归因引导的持续学习
本文提出了一种面向大型语言模型的归因引导持续微调框架,该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度,在保持新任务性能的同时缓解了灾难性遗忘。
通过 L₀ 正则化学习稀疏神经网络
OpenAI 提出了一种实用的神经网络 L₀ 正则化方法,在训练过程中促使权重精确变为零,实现网络剪枝以提高速度和泛化性能。该方法使用随机门控机制,引入硬具体分布(hard concrete distribution)使得不可微的 L₀ 范数优化能够通过梯度下降法求解。
@HuggingPapers:并行推理及时止损——STOP 通过读取 KV-cache 状态提前剪枝注定失败的轨迹,…
STOP 方法利用 KV-cache 状态提前剪枝注定失败的推理轨迹,token 用量降 70%,在 1.5B–20B 模型上提升 AIME 与 GPQA 准确率。