基于归因的神经元效用用于深度网络中的可塑性恢复

arXiv cs.LG 论文

摘要

本文引入了梯度乘以参考差值(GXD),这是一种具有理论依据的效用度量方法,旨在通过归因神经元效用来在持续学习过程中恢复深度网络的可塑性。文章指出,与激活幅度等现有代理信号相比,GXD 能够提供更可靠的干预成本估计。

arXiv:2605.06834v1 公告类型:新论文 摘要:持续学习研究试图保留两种基本能力:新知识获取和先前已获知识的保持。尽管在这种情况下,知识可以通过在隐式或显式任务空间上的性能来衡量,但模型可塑性通常关注的是数据分布演变时的适应能力。虽然大量文献聚焦于灾难性遗忘,但深度网络也可能遭受可塑性丧失的问题,导致在持续训练下越来越难以更新。最近的研究确定了导致这一现象的多种机制,包括神经元饱和、参数范数增长以及有用曲率方向的丧失。自适应重置干预通过选择性重新初始化低效用的网络参数,已成为恢复可训练性的实用解决方案。现有用于指导重置的效用度量(如激活幅度、贡献效用或基于梯度的活动度)依赖于代理信号,这些信号可能与其旨在指导的干预措施产生偏差。在本文中,我们引入了梯度乘以参考差值(GXD),这是一种基于参考梯度归因、具有理论依据的效用度量,用于估计替换单元的一阶功能成本。我们的结果表明,与重置功能成本对齐的效用度量可以在现有重置标准性能下降的情况下使干预更加可靠。GXD 将自适应重置重构为干预成本估计问题,为构建更鲁棒的持续学习系统提供了一条实用路径。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 06:55

# 基于归因的神经元效用:在深度网络中恢复可塑性
来源: https://arxiv.org/html/2605.06834
Patrick Elisii Lucas Beauchemin Dawer Jamshed

The Vanguard Group, Inc.

###### 摘要

持续学习(Continual Learning)研究试图保留两种基本能力:新知识的获取以及先前获取知识的保持。虽然在此情况下,知识可以通过在隐式或显式任务空间上的表现来衡量,但模型的可塑性通常关注的是随着数据分布演变而带来的适应性。尽管大量文献专注于灾难性遗忘(catastrophic forgetting),但深度网络也可能遭受可塑性损失,在持续训练下变得越来越难更新。最近的研究确定了导致这一现象的多种机制,包括神经元饱和、参数范数增长以及有用曲率方向的丢失。自适应重置干预(adaptive reset-based interventions),即选择性重新初始化低效用网络参数,已成为恢复可训练性的实用解决方案。现有用于指导重置的效用度量,如激活幅度、贡献效用或基于梯度的活动,依赖于可能与其旨在指导的干预措施不一致的代理信号。在本文中,我们引入了梯度乘以参考差值(Gradient Times Difference from Reference, GXD),这是一种基于参考基准梯度归因的理论驱动的效用度量,用于估计替换某个单元的一阶功能成本。我们的结果表明,与重置的功能成本对齐的效用度量可以在现有重置标准退化的设置中使干预更加可靠。GXD 将自适应重置重构为一个干预成本估计问题,为构建更健壮的持续学习系统提供了一条实用路径。

## 1 引言

持续学习是机器学习研究中日益重要的领域,其应用涵盖计算机视觉、时间序列预测和自然语言处理(Wang et al., 2024 (https://arxiv.org/html/2605.06834#bib.bib26))。持续学习的主要挑战之一是深度神经网络中的可塑性损失,即在非平稳数据上增量训练的模型逐渐丧失对新信息的适应能力(Dohare et al., 2024 (https://arxiv.org/html/2605.06834#bib.bib5))。这种失效模式不同于灾难性遗忘,尽管二者常相互交织。模型不仅丢失了先前获取的知识,还丧失了高效获取新知识的能力。先前工作将这种退化与休眠或饱和单元(Sokar et al., 2023 (https://arxiv.org/html/2605.06834#bib.bib24))、预激活和目标分布偏移(Lyle et al., 2025 (https://arxiv.org/html/2605.06834#bib.bib17))、参数范数增长和有效秩降低(Dohare et al., 2024 (https://arxiv.org/html/2605.06834#bib.bib5); Lyle et al., 2025 (https://arxiv.org/html/2605.06834#bib.bib17))以及有用曲率方向的丢失(Lewandowski et al., 2024a (https://arxiv.org/html/2605.06834#bib.bib12))联系起来。由于可塑性损失被证明源于多种相互作用机制,旨在训练过程中恢复容量的自适应干预已成为重要的实用方向。

基于重置的方法就是其中一种干预手段。这些方法定期重新初始化被认为效用低的部分网络,注入新的容量,同时试图保持当前功能。ReDo 重置归一化活动度低的神经元(Sokar et al., 2023 (https://arxiv.org/html/2605.06834#bib.bib24)),持续反向传播(Continual Backpropagation, CBP)持续替换一小部分低效用的隐藏单元(Dohare et al., 2024 (https://arxiv.org/html/2605.06834#bib.bib5)),选择性权重重新初始化(Selective Weight Reinitialization)将此思想扩展到单个权重(Hernandez-Garcia et al., 2025 (https://arxiv.org/html/2605.06834#bib.bib8)),而 ReGraMa 使用梯度信息来识别强化学习中需要回收的神经元(Liu et al., 2025 (https://arxiv.org/html/2605.06834#bib.bib14))。这些方法不仅在效用度量上存在差异,在使用效用来分配重置的方式上也各不相同。

我们关注基于排名的重置方法(如 CBP)中的效用问题。在这些方法中,重置率固定了注入的可塑性数量,而效用分数决定了干预应用的地点。这将两个常被混淆的问题分离开来:重置的频率和幅度是多少,以及哪些单元应该被重置?从这个角度来看,单元效用是在可塑性-稳定性权衡下分配固定重置预算的排名信号。重置应在提供可塑性益处的同时,最小化对当前功能的干扰,因此,效用的一个核心作用是估计替换候选单元的功能后果。

现有的重置效用捕捉了这一权衡的不同方面,但没有一个直接估计重置干预的下游成本。基于激活的休眠分数度量局部表达(Sokar et al., 2023 (https://arxiv.org/html/2605.06834#bib.bib24)),而 CBP 的贡献效用增加了输出权重和运行参考激活值(Dohare et al., 2024 (https://arxiv.org/html/2605.06834#bib.bib5))。当下游影响与局部幅度解耦时,这些局部代理可能会变得不可靠,这种情况可能发生在非 ReLU 激活、归一化层、跳跃连接和多分支计算中(Liu et al., 2025 (https://arxiv.org/html/2605.06834#bib.bib14))。损失-梯度效用增加了下游意识,但它们根据单元对当前损失的影响进行排名,而不是根据替换它们所引起的功能扰动进行排名。对于基于排名的重置,由于重置预算是固定的,效用应有助于将替换分配给那些重置后能保持可训练性而无需不必要地干扰当前功能的单元。我们专注于该问题中可直接估计的部分:实际干预的功能成本,即将单元从其当前激活移动到重置机制所使用的重置参考值。

我们提出了梯度乘以参考差值(GXD),一种估计此干预成本的效用分数。GXD 根据任务相关输出对位移的敏感性,对单元与重置参考值的位移进行加权。在 CBP 设置中,参考值是由重置补偿使用的运行激活值(Dohare et al., 2024 (https://arxiv.org/html/2605.06834#bib.bib5)),因此 GXD 估计将单元从其当前激活移动到重置后将采用的有效值的一阶下游效应。这将重置效用与基于参考的归因方法(如 DeepLIFT(Shrikumar et al., 2017 (https://arxiv.org/html/2605.06834#bib.bib22))和积分梯度 Integrated Gradients(Sundararajan et al., 2017 (https://arxiv.org/html/2605.06834#bib.bib25)))联系起来,但这里的归因不是用于事后解释,而是作为低成本可塑性注入的在线排名信号。

我们要做出三项贡献。首先,我们将基于排名的重置方法的效用估计公式化为可塑性-稳定性权衡,并确定下游重置成本是分配固定重置预算所需的关键量。其次,我们引入 GXD 作为一种简单的参考相对归因效用,使分数与 CBP 使用的重置干预保持一致。第三,我们在局部效用度量变得不可靠的设置中评估 GXD。我们表明,GXD 更好地预测了实际的重置冲击,改善了平滑和非 ReLU 激活下的持续反向传播,减轻了带有层归一化的网络中的可塑性损失,并提高了残差架构中的特征稳定性。这些结果支持以下观点:重置效用应估计重置的下游功能成本,而不仅仅是局部表达、局部贡献或学习信号。

## 2 相关工作

可塑性损失与多种相互作用机制有关,包括休眠或饱和单元、预激活和目标分布偏移、参数范数增长、有效秩降低以及有用曲率方向的丢失(Sokar et al., 2023 (https://arxiv.org/html/2605.06834#bib.bib24); Lyle et al., 2025 (https://arxiv.org/html/2605.06834#bib.bib17); Dohare et al., 2024 (https://arxiv.org/html/2605.06834#bib.bib5); Lewandowski et al., 2024a (https://arxiv.org/html/2605.06834#bib.bib12))。现有的缓解措施要么通过归一化、权重衰减、再生或谱正则化以及收缩-扰动风格噪声注入来修改全局训练动态(Ash and Adams, 2020 (https://arxiv.org/html/2605.06834#bib.bib2); Kumar et al., 2025 (https://arxiv.org/html/2605.06834#bib.bib10); Lewandowski et al., 2024b (https://arxiv.org/html/2605.06834#bib.bib13)),要么通过重置和可塑性注入直接干预网络组件(Nikishin et al., 2022 (https://arxiv.org/html/2605.06834#bib.bib19), 2023 (https://arxiv.org/html/2605.06834#bib.bib20); Dohare et al., 2021 (https://arxiv.org/html/2605.06834#bib.bib4); Sokar et al., 2023 (https://arxiv.org/html/2605.06834#bib.bib24); Hernandez-Garcia et al., 2025 (https://arxiv.org/html/2605.06834#bib.bib8); Liu et al., 2025 (https://arxiv.org/html/2605.06834#bib.bib14))。我们的工作聚焦于后者,更具体地说,是用于选择基于排名的重置方法应替换哪些单元的效用信号。先前的重置效用主要依赖于激活统计、激活-权重贡献启发式或损失-梯度活动(Dohare et al., 2024 (https://arxiv.org/html/2605.06834#bib.bib5); Sokar et al., 2023 (https://arxiv.org/html/2605.06834#bib.bib24); Liu et al., 2025 (https://arxiv.org/html/2605.06834#bib.bib14));相比之下,我们借鉴了特征归因方法,这些方法估计内部组件如何影响模型输出,包括 DeepLIFT、积分梯度、基于梯度的归因、电导率(conductance)以及高效的内部神经元重要性分数(Shrikumar et al., 2017 (https://arxiv.org/html/2605.06834#bib.bib22); Sundararajan et al., 2017 (https://arxiv.org/html/2605.06834#bib.bib25); Ancona et al., 2018 (https://arxiv.org/html/2605.06834#bib.bib1); Dhamdhere et al., 2019 (https://arxiv.org/html/2605.06834#bib.bib3); Shrikumar et al., 2018 (https://arxiv.org/html/2605.06834#bib.bib23))。虽然基于归因的重要性分数主要用于解释和剪枝(Yeom et al., 2021 (https://arxiv.org/html/2605.06834#bib.bib28); Yvinec et al., 2022 (https://arxiv.org/html/2605.06834#bib.bib29)),但我们使用归因作为低影响重置选择的在线效用估计器。

## 3 预备知识

### 3.1 作为基于排名重置的持续反向传播

我们考虑在网络训练于长序列变化的输入分布或任务的持续学习设置。在这样的设置中,标准反向传播会导致网络逐渐失去可塑性,这意味着随着训练的进行,网络适应新数据的能力越来越弱。持续反向传播(CBP)通过将普通基于梯度的学习与持续的生成-测试机制相结合来解决这个问题,该机制在训练期间重新初始化一小部分成熟的低效用隐藏单元(Dohare et al., 2021 (https://arxiv.org/html/2605.06834#bib.bib4), 2024 (https://arxiv.org/html/2605.06834#bib.bib5))。

CBP 是一种基于排名的生成-测试重置方法:在每个训练步骤之后,它更新每个隐藏单元跟踪的效用,并根据设定的替换率 $\rho$ 替换效用最低的成熟单元。重置会采样新的输入权重,并重置单元的优化器状态和年龄。重置后,输出权重被设为零,并且每个下游消费者的偏差根据被移除单元的平均贡献 $w_{i,k,t}^{(l)} \hat{f}_{l,i,t}$ 进行调整,以减少移除带来的即时功能影响。

Dohare et al. (2024 (https://arxiv.org/html/2605.06834#bib.bib5)) 使用的贡献效用追踪由输出连接幅度加权的局部表达,$u_i^{\mathrm{Cont}} \approx \mathbb{E}[\|h_i\| \sum_k \|w_{i,k}^{\mathrm{out}}\|]$。另一种提出的效用,均值校正的可适应贡献(mean-corrected adaptable contribution)(Dohare et al., 2023 (https://arxiv.org/html/2605.06834#bib.bib6)),用相对于运行激活参考的位移 $\|h_i - r_i\|$ 替换 $\|h_i\|$,并包含一个与输入权重幅度成反比的适应因子。完整的 CBP 算法和伪代码见附录 A.1 (https://arxiv.org/html/2605.06834#A1.SS1)。

这些效用使 CBP 成为研究重置选择的理想测试平台,因为干预是固定的,但不同的效用分数会导致不同的单元替换排名。因此,我们保持 CBP 重置机制不变,仅修改用于对符合条件的神经元进行排名的效用估计器。

### 3.2 重置效用作为成本-收益权衡

基于排名的重置方法选择哪些成熟单元应接受固定的重置干预。重置神经元可能有益,因为它可以通过替换当前状态限制适应性的单元来恢复未来的可训练性。然而,相同的重置也可能有害,因为它移除了当前支持网络所表示功能的学习特征。因此,重置选择可以被视为平衡重置成本和未来可训练性的成本-收益问题。

令 $R_S(\theta_t)$ 表示在时间 $t$ 对一组成熟单元 $S$ 应用重置算子后获得的参数。令 $\mathcal{D}_t$ 表示当前或最近的在线数据分布,并令 $z_\theta(x) \in \mathbb{R}^C$ 表示 logits。我们将重置 $S$ 的即时功能成本定义为

$$C_t(S) = \mathbb{E}_{x \sim \mathcal{D}_t} \left[ d \left( z_{\theta_t}(x), z_{R_S(\theta_t)}(x) \right) \right], \quad (1)$$

其中 $d$ 是任务相关的输出距离,例如 logits 距离或预测分布之间的 KL 散度。令 $B_t(S)$ 表示重置 $S$ 的预期未来可塑性收益:通过替换这些单元并在未来数据上继续训练所获得的后续适应改进。理想情况下,固定预算的重置选择器应求解

$$S_t^\star = \arg\max_{\begin{subarray}{c} S \subseteq \mathcal{M}_t \\ \|S\|=k \end{subarray}} \left[ B_t(S) - \lambda C_t(S) \right], \quad (2)$$

其中 $\mathcal{M}_t$ 是成熟的可重置单元集合,$k$ 是重置预算,$\lambda$ 控制可塑性-稳定性权衡。

公式 (2) (https://arxiv.org/html/2605.06834#S3.E2) 中的两项在可估计的直接性上有所不同。未来收益 $B_t(S)$ 是一个延迟的反事实量,其价值取决于训练继续后重置单元的后续使用。因此,现有的面向可塑性的效用,如损失-梯度幅度或输入权重范数,试图通过识别当前状态可能限制未来适应性的单元来充当此收益项的代理。这些信号激励替换那些接收低学习信号或难以适应的单元。相比之下,成本 $C_t(S)$ 在选择时具有直接的目标,因为可以对候选单元应用相同的重置操作,并测量当前功能的变化程度。

相似文章

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。

SURGE:二元神经网络中的代理梯度适配

arXiv cs.LG

本文介绍了 SURGE,这是一种新颖的可学习梯度补偿框架,用于训练二元神经网络,旨在解决直通估计器等传统方法中存在的梯度失配和信息丢失问题。

广义神经元

ML at Berkeley

本文探讨了深度学习中的通用近似定理,分析了使用 ReLU 激活函数时单个神经元和神经网络层的表示能力。

神经 GPU 的扩展与局限性

OpenAI Blog

本文探讨了神经 GPU 模型的扩展与局限性,通过课程设计和规模扩展展示了改进方案,使其能够学习十进制数和长表达式的算术运算,同时识别出对称输入上的失败模式,这些模式类似于对抗样本。