论结构可塑性中增长的稳定性
摘要
本文研究神经网络结构可塑性中剪枝与增长之间的不对称性,表明新生单元比现有单元受到更弱的梯度信号,并提出改进整合的干预措施。
arXiv:2605.15435v1 公告类型:新
摘要:标准深度学习流水线通常在训练前选择网络架构,并在优化过程中保持固定。相比之下,模型也可以通过训练中编辑其结构来适应,例如剪枝现有隐藏神经元单元或生长新单元。尽管增长对于自适应和持续系统具有吸引力,但我们表明它并非剪枝的简单逆操作。剪枝选择从训练开始就参与训练的单元,而增长则将新单元插入已经专业化的优化轨迹中。我们孤立了这个插入问题,并表明新生单元通常是前向活跃但后向饥饿的:它们参与前向计算,但收到的梯度信号比现有单元弱得多。这种劣势在小型MLP基准中微不足道,但在具有卷积主干更难图像分类设置中变得明显。在这些设置中,\textsc{Grow} 在结构编辑过程中可以达到高最终准确率,而 \textsc{Prune} 在训练轨迹上平均性能或最终稀疏网络从头重新训练时更强。针对优化器状态、插入、选择和可训练性的干预表明,改善新生单元的整合可以提高自适应性能,但不会自动产生更好的最终子网络。在强调可塑性损失的持续学习基准中,\textsc{Grow} 主要在新单元有足够时间整合时变得具有竞争力。这些结果共同表明,\textsc{Grow} 不仅应作为架构搜索算子进行评估,还应作为依赖于插入稳定性的时间敏感优化过程。
查看缓存全文
缓存时间: 2026/05/18 06:41
# 结构可塑性中生长的稳定性
来源:https://arxiv.org/html/2605.15435
###### 摘要
标准的深度学习流水线通常会在训练前选择网络架构并在优化过程中保持不变。与此相反,模型也可以通过训练期间编辑其结构来适应,例如修剪现有的隐藏神经元或生长新的神经元。尽管生长对于自适应和持续学习系统具有吸引力,但我们表明它并非修剪的简单逆操作。修剪从初始就参与训练的单元中选择,而生长则将新单元插入到已经专业化的优化轨迹中。我们孤立出这一“插入问题”,并表明新生单元往往前向活跃但反向饥饿:它们参与前向计算,但接收到的梯度信号远比现有单元弱。这种劣势在小型MLP基准测试中较小,但在具有卷积主干网络的更困难图像分类设置中变得明显。在这些设置中,Grow可以在结构编辑过程中达到高最终准确率,而当性能在训练轨迹上平均或最终稀疏网络从头重新训练时,Prune更强。针对优化器状态、插入、选择和可训练性的干预表明,改善新生单元的整合可以提升自适应性能,但不能自动产生更好的最终子网络。在强调可塑性损失的持续学习基准测试中,Grow主要在新单元有足够时间整合时才具有竞争力。综合这些结果,建议不仅应将Grow视为架构搜索算子,而应视为一个时间敏感的优化过程,其成功依赖于插入稳定性。
## 1 引言
结构可塑性——即在训练期间修改网络架构的能力——是在参数、FLOPs或延迟等显式资源预算下自动化机器学习的一种自然原语。它的两个基本算子是*剪枝*,它从过参数化模型中移除容量[19 (https://arxiv.org/html/2605.15435#bib.bib13),18 (https://arxiv.org/html/2605.15435#bib.bib14)],和*生长*,它向紧凑模型添加容量[43 (https://arxiv.org/html/2605.15435#bib.bib45),39 (https://arxiv.org/html/2605.15435#bib.bib41),7 (https://arxiv.org/html/2605.15435#bib.bib55),37 (https://arxiv.org/html/2605.15435#bib.bib39)]。两者都可以视为架构空间中的搜索算子,动态稀疏训练(DST)表明结构可以在保持固定参数预算的同时在线更新[24 (https://arxiv.org/html/2605.15435#bib.bib30),32 (https://arxiv.org/html/2605.15435#bib.bib27),3 (https://arxiv.org/html/2605.15435#bib.bib1),8 (https://arxiv.org/html/2605.15435#bib.bib2)]。然而在实践中,结构适应仍然由基于剪枝的方法主导。这种不平衡反映了一个重要的不对称性。剪枝始于过剩容量:候选单元从初始化时存在,参与早期训练,随后可以被选择或移除。这是彩票假设背后的直觉,该假设认为稠密网络可以包含稀疏子网络,这些子网络在从原始训练轨迹中选择时可训练[13 (https://arxiv.org/html/2605.15435#bib.bib22),14 (https://arxiv.org/html/2605.15435#bib.bib49)]。生长则提供了仅在需要时和需要处添加容量的互补承诺,这对自适应和持续系统尤其有吸引力,因为它可以在任务或分布变化时添加容量[31 (https://arxiv.org/html/2605.15435#bib.bib8),44 (https://arxiv.org/html/2605.15435#bib.bib38),26 (https://arxiv.org/html/2605.15435#bib.bib42),43 (https://arxiv.org/html/2605.15435#bib.bib45)]。然而,这一好处取决于新插入的容量能否在下一个变化到来之前稳定下来;否则,生长可能需要反复扩展,并可能本身成为不稳定的源头[47 (https://arxiv.org/html/2605.15435#bib.bib43)]。但是新添加的单元进入较晚,在网络已经专业化之后,并且必须在成熟的优化轨迹内变得有用。因此,Grow–Prune的比较可能混淆两个问题:最终稀疏架构是否良好,以及插入过程是否允许新单元在训练期间足够快速地整合。这一插入视角连接了先前孤立研究的几个机制。保留功能的增宽方法旨在减少插入引起的干扰[5 (https://arxiv.org/html/2605.15435#bib.bib21),38 (https://arxiv.org/html/2605.15435#bib.bib31),17 (https://arxiv.org/html/2605.15435#bib.bib3)];基于梯度或激活的规则询问哪里应该扩展[40 (https://arxiv.org/html/2605.15435#bib.bib53),10 (https://arxiv.org/html/2605.15435#bib.bib26),11 (https://arxiv.org/html/2605.15435#bib.bib40)];最近关于生长网络的工作突出了新旧优化不对称性,如优化器状态迁移和年龄依赖的学习率[46 (https://arxiv.org/html/2605.15435#bib.bib24)]。更广泛地说,预热、逐层调制和自适应优化器状态都指向同一个问题:一个新插入的单元可能不仅因放置位置而处于劣势,还因*何时*进入训练而处于劣势[45 (https://arxiv.org/html/2605.15435#bib.bib4),42 (https://arxiv.org/html/2605.15435#bib.bib15),33 (https://arxiv.org/html/2605.15435#bib.bib5),21 (https://arxiv.org/html/2605.15435#bib.bib10),35 (https://arxiv.org/html/2605.15435#bib.bib11),48 (https://arxiv.org/html/2605.15435#bib.bib12)]。因此,我们将生长作为*结构可塑性原语*来研究,并将插入稳定性作为分析的核心对象。新添加的单元面临三个出生时刻的劣势:(i)*功能冲击*,插入扰动已学习的输入-输出映射;(ii)*冷启动*,新参数缺乏优化器状态;(iii)*弱学习信号*,新生单元获得的信用相比于现有单元不成比例地少。在整篇文章中,“单元”指在神经元级别添加或移除的隐藏神经元,而非单个连接;因此我们的研究涉及单元级的结构编辑,而非非结构化突触级重连[6 (https://arxiv.org/html/2605.15435#bib.bib9)]。本文的核心主张是,生长的主要限制并非因为它无法发现有用的稀疏架构,而是因为新添加的单元必须在成熟的优化轨迹中晚期整合。这使得自适应过程更不稳定且更路径依赖,即使最终重新训练的掩码与剪枝相比具有竞争力。我们孤立出这一插入原语,并询问:*Grow和Prune何时有差异,这种差异反映的是最终稀疏架构质量还是产生它的自适应过程,以及何时可以减小生长过程层面的劣势?*¹¹代码见:https://anonymous.4open.science/r/structural_plasticity-1544
- • 我们表明Grow–Prune差距并非一成不变:在小型MLP中,生长和剪枝产生同样可重新训练的掩码,而在卷积特征学习范式中,主要不对称性体现在轨迹质量和路径依赖上,而非票证质量(第4节 (https://arxiv.org/html/2605.15435#S4))。
- • 我们将插入时刻的优化劣势确定为生长的过程层面瓶颈,表明新生单元可能前向活跃但反向饥饿(第4.2节 (https://arxiv.org/html/2605.15435#S4.SS2))。
- • 我们使用对优化器状态、插入、选择和激活层可训练性的干预来探测这一瓶颈,表明改善整合可以增强自适应过程性能,而不一定产生更好的可重新训练的最终子网络(第5节 (https://arxiv.org/html/2605.15435#S5))。
- • 我们表明在持续变化下,当新单元有足够时间在下一次分布变化前整合时,生长最有效;采用即插即用的保持可塑性的激活函数,Grow可以与Prune竞争或超越Prune(第6节 (https://arxiv.org/html/2605.15435#S6))。
## 2 背景与相关工作
##### 动态稀疏性与结构算子
动态稀疏训练(DST)方法在保持固定参数预算的同时在线更新稀疏连接,将剪枝和重新生长作为交织的结构算子[32 (https://arxiv.org/html/2605.15435#bib.bib27),3 (https://arxiv.org/html/2605.15435#bib.bib1),8 (https://arxiv.org/html/2605.15435#bib.bib2)]。这一研究方向强化了将剪枝和生长视为架构空间中的搜索移动的AutoML观点,并强调*分配规则*——哪些连接或单元获得结构——与学习动力学强烈交互[10 (https://arxiv.org/html/2605.15435#bib.bib26)]。我们不关注分配规则,而是关注*插入*事件本身的稳定性。
##### 用于生长的保留函数变换
实现稳定架构扩展的一种经典方法是在插入时刻保留网络函数。Net2Net和Network Morphism提供了增宽变换,初始化扩展后的网络以计算大致相同的输入-输出映射[5 (https://arxiv.org/html/2605.15435#bib.bib21),38 (https://arxiv.org/html/2605.15435#bib.bib31)],MorphNet展示了如何在资源约束下优化宽度[17 (https://arxiv.org/html/2605.15435#bib.bib3)]。这些方法减少了插入引起的扰动,但本身并不能解决新旧参数之间的优化不对称性。
##### 持续学习中的生长
许多持续学习方法依赖架构扩展来适应新任务,设计选择集中在*何时*、*何地*和*生长什么*[37 (https://arxiv.org/html/2605.15435#bib.bib39),12 (https://arxiv.org/html/2605.15435#bib.bib7),44 (https://arxiv.org/html/2605.15435#bib.bib38),26 (https://arxiv.org/html/2605.15435#bib.bib42),43 (https://arxiv.org/html/2605.15435#bib.bib45)]。生长具有吸引力,因为它为新信息分配新鲜容量,可能缓解稳定性-可塑性困境。与此同时,基于强隔离的方法如PackNet、Piggyback和获胜子网络方法通过分配任务特定子网络在共享权重内实现低遗忘[30 (https://arxiv.org/html/2605.15435#bib.bib34),29 (https://arxiv.org/html/2605.15435#bib.bib33),20 (https://arxiv.org/html/2605.15435#bib.bib36)],但通常以推理时的任务身份、路由或选择为代价。最近的工作进一步表明,在任务无关的设置中,不受控的扩展本身可能引发遗忘[47 (https://arxiv.org/html/2605.15435#bib.bib43)]。在我们的工作中,我们询问新添加的单元能否足够稳定地整合,使生长成为一个有竞争力的结构算子。
## 3 实验设置
我们在匹配的数据流、优化器和紧凑性目标下比较三个模型系列:
- •Dense:无稀疏化。
- •Prune:仅对带掩码层应用迭代幅度剪枝(IMP)。每次剪枝步骤后,存活的权重回退到较早的检查点,遵循标准的彩票假设(LTH)协议。尽管非回退的剪枝基线会更接近Grow的过程设置,但IMP风格的回退提供了标准的稀疏子网络选择基线,并使我们能够询问最终掩码本身是否是一个强大的可重新训练架构(见附录A.6.2 (https://arxiv.org/html/2605.15435#A1.SS6.SSS2))。
- •Grow:从稀疏种子掩码开始,迭代地*激活*单元,直到达到目标紧凑性。为了决定激活什么,我们在一个小批量上对当前被掩码的单元进行评分,评估如果取消掩码,它们的后激活值超过一个小阈值的频率。直观上,这估计了一个非活跃候选如果被招募会有多频繁地有意义地被激活(见附录A.6.1 (https://arxiv.org/html/2605.15435#A1.SS6.SSS1))。我们还测试了基于梯度的招募方法,得到相似的定性结论(附录B.4 (https://arxiv.org/html/2605.15435#A2.SS4))。掩码就地更新,不回退,因为研究的目标正是新单元在成熟优化轨迹中的晚期插入。在每次生长事件中,新生单元被添加到现有的活跃集合中,而非用于替换较早的单元。
我们的第一个设置使用一个3层MLP,带有两个带掩码的隐藏层和一个不带掩码的10路分类头,因此结构编辑只重新分配隐藏容量,而不改变输出映射。每个Grow或Prune运行通过一系列结构编辑周期进行,直到达到最终目标保留紧凑度c∈{20,30,40,50}%。在周期开始,该方法通过添加单元(Grow)或移除单元(Prune)来更新活跃单元掩码;结果网络在固定数量的epoch上训练,然后进行下一次编辑,直到通过相反的编辑轨迹达到c。我们仅将这些周期用作评估检查点。每个方法最终产生一个最终的二进制掩码。为了分离编辑过程的质量与最终稀疏架构的质量,我们以两种方式评估每个方法:
1. 1.周期性能:在Grow/Prune过程本身期间,在每个结构编辑周期结束时测量准确率。这捕捉了模型在训练期间在线更改架构时的表现。
2. 2.获胜票证性能:在冻结发现的掩码、重新初始化模型并从头重新训练后测量准确率。这遵循彩票票证评估协议,并测试发现的稀疏架构是否独立于用于找到它的路径而可训练[13 (https://arxiv.org/html/2605.15435#bib.bib22)]。
对于两种评估,我们报告 (i) 最后一个任务后的最终累积准确率(ACC),以及 (ii) 轨迹平均准确率(TAA),计算为训练轨迹上的平均累积测试准确率。TAA捕捉流中的学习速度和保持能力,而ACC反映流结束时的性能。
## 4 结果
##### 最小MLP基准测试:不存在稳定的生长差距
在IID MNIST[25 (https://arxiv.org/html/2605.15435#bib.bib20)]上,所有方法都达到高准确率。在带有单个共享10路头的类增量Split-MNIST上,所有方法在没有稳定机制的情况下崩溃到接近随机水平,表明灾难性遗忘主导了架构比较。因此,我们添加一个小型经验回放缓冲区Tiny ER(每类5050个样本)以使结构差异可解释。在此设置下,使用SGD且η=0.01,Grow、Prune和Dense在紧凑性水平上紧密匹配,在周期或获胜票证指标上没有一致的排序。同样的模式在Split-Fashion-MNIST[41 (https://arxiv.org/html/2605.15435#bib.bib6)]上成立。如表1 (https://arxiv.org/html/2605.15435#S4.T1)总结,这些小型MLP基准测试并未暴露稳定的Grow–Prune差距:两种方法找到的掩码在不同紧凑性预算下重新训练到相似的最终准确率和TAA。因此,后面研究的更强不对称性并非仅仅由稀疏性或类增量训练引起;相反,当结构编辑发生在学习非平凡视觉表示的模型内部时,这些不对称性变得更明显。这推动了下一步:进入卷积特征学习范式,其中插入时刻的不对称性可能变得更具后果。
表 1:小型 MLP 基准测试未暴露稳定的 Grow–Pru相似文章
利用快慢后继特征平衡可塑性与稳定性
本文研究了渐变非平稳环境下强化学习中的稳定性-可塑性困境,发现通过跨多个时间尺度的突触巩固来稳定后继特征,其效果优于专注于可塑性的方法。
在顺序训练的早退出神经网络中平衡稳定性与可塑性
本文针对顺序训练的早退出神经网络中的灾难性遗忘问题,提出了两种分别基于弹性权重巩固(Elastic Weight Consolidation)和无遗忘学习(Learning without Forgetting)的方法,旨在在添加新退出点的同时保留早期退出点的性能。
基于归因的神经元效用用于深度网络中的可塑性恢复
本文引入了梯度乘以参考差值(GXD),这是一种具有理论依据的效用度量方法,旨在通过归因神经元效用来在持续学习过程中恢复深度网络的可塑性。文章指出,与激活幅度等现有代理信号相比,GXD 能够提供更可靠的干预成本估计。
Bug or Feature^2:权重漂移、激活稀疏性与尖峰
本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。
大步长梯度下降恢复多路径深度线性网络中的对称性
本文证明,使用大步长的离散梯度下降能够恢复多路径深度线性网络中的对称性,这与梯度流所预测的对称性破缺相反,并导致跨路径的信号重新平衡。作者从理论上证明,平衡解比稀疏解更平坦(锐度更低),且大的学习率驱动网络朝着稳定、平衡的配置发展。