结合均衡传播的树突神经网络

arXiv cs.LG 论文

摘要

本文探讨了将树突神经网络与均衡传播相结合,表明与标准均衡传播相比,这种具有生物学合理性的方法在具有挑战性的数据集上提高了性能。

arXiv:2605.08135v1 公告类型:新发布 摘要:均衡传播(Equilibrium Propagation, EP)是一种具有生物学合理性的反向传播(Backpropagation, BP)替代方案,但其有效性在更深层次和更具挑战性的学习场景中可能会降低。与此同时,树突神经网络在使用反向传播训练时表现出了更好的性能和泛化能力,这表明结构化、受生物学启发的架构可能有助于增强学习效果。在本研究中,我们利用先进的 EP 框架,探讨了树突神经网络与均衡传播的整合。我们在 MNIST、Kuzushiji-MNIST (KMNIST) 和 Fashion-MNIST (FMNIST) 数据集上评估了所提出的树突 EP 模型,涵盖了浅层和深层架构。我们的结果表明,树突 EP 在简单任务上达到了与标准 EP 相当的性能,而在更具挑战性的数据集和更深模型上则提供了持续的性能提升。特别是,树突 EP 在 KMNIST 和 FMNIST 上显著优于标准 EP,并接近通过时间反向传播(Backpropagation Through Time)训练的树突网络的性能。为了进一步理解这些改进,我们分析了自由阶段(free phase)隐藏状态的演变。我们观察到,与标准 EP 相比,树突 EP 表现出更高的激活幅度和更分布化的隐藏状态活动,这表明树突结构改变了内部网络动力学。这些发现表明,纳入树突结构可以增强生物学合理性学习算法的有效性,尤其是在标准 EP 表现不佳的情况下。我们的工作强调了架构设计对于改进受生物学启发的训练方法的重要性。
查看原文
查看缓存全文

缓存时间: 2026/05/12 06:50

# 基于平衡传播的树突神经网络

来源: https://arxiv.org/html/2605.08135
Yoshimasa Kubo 计算机科学系 湖首大学 加拿大桑德贝 [email protected]

###### 摘要

平衡传播(Equilibrium Propagation, EP)是反向传播(Backpropagation, BP)的一种生物合理性替代方案,但在更深网络和更具挑战性的学习场景中,其有效性可能会下降。与此同时,使用 BP 训练的树突神经网络已展现出提升的性能和泛化能力,这表明结构化且受生物学启发的架构可能增强学习效果。在本研究中,我们调查了利用先进的 EP 框架将树突神经网络与平衡传播相结合的情况。我们在 MNIST、Kuzushiji-MNIST(KMNIST)和 Fashion-MNIST(FMNIST)上评估了所提出的树突 EP 模型,并考虑了浅层和深层架构。结果表明,在简单任务上,树突 EP 的表现与标准 EP 相当,而在更具挑战性的数据集和更深模型上则提供了持续的性能提升。特别是,在 KMNIST 和 FMNIST 上,树突 EP 显著优于标准 EP,并接近通过时间反向传播(Backpropagation Through Time)训练的树突网络的性能。为了进一步理解这些改进,我们分析了自由阶段隐藏状态的演变。我们观察到,与标准 EP 相比,树突 EP 表现出更高的激活幅度和更分布式的隐藏状态活动,表明树突结构改变了内部网络动力学。这些发现表明,结合树突结构可以增强生物合理性学习算法的有效性,尤其是在标准 EP 难以应对的情况下。我们的工作突显了架构设计对于改进受生物学启发的训练方法的重要性。

## 1 引言

平衡传播(EP)(Scellier and Bengio,2017 (https://arxiv.org/html/2605.08135#bib.bib1),2019 (https://arxiv.org/html/2605.08135#bib.bib2); Ernoult et al.,2019 (https://arxiv.org/html/2605.08135#bib.bib3); Laborieux et al.,2021 (https://arxiv.org/html/2605.08135#bib.bib4); Laborieux and Zenke,2022 (https://arxiv.org/html/2605.08135#bib.bib5)) 是一种具有生物合理性的训练算法,作为广泛用于训练神经网络的反向传播(BP)的替代方案。最近的工作 (Laborieux et al.,2021 (https://arxiv.org/html/2605.08135#bib.bib4)) 表明,使用 EP 的高级变体训练的循环神经网络可以达到与使用 BP 训练的网络相竞争的性能。

已经提出了 EP 的几种扩展,包括在强化学习中的应用 (Kubo et al.,2022 (https://arxiv.org/html/2605.08135#bib.bib6))、持续学习 (Kubo et al.,2025 (https://arxiv.org/html/2605.08135#bib.bib7))、具有异质时间常数的模型 (Kubo et al.,2026 (https://arxiv.org/html/2605.08135#bib.bib12)) 以及结合卷积层的架构 (Ernoult et al.,2019 (https://arxiv.org/html/2605.08135#bib.bib3); Laborieux et al.,2021 (https://arxiv.org/html/2605.08135#bib.bib4))。虽然这些研究扩展了 EP 的适用范围,但它们主要关注学习算法本身,而不是生物合理性神经网络架构的设计。

与此同时,最近的研究探索了使用 BP 训练的树突神经网络,证明在持续学习 (Grewal et al.,2021 (https://arxiv.org/html/2605.08135#bib.bib16)) 等任务中性能提升,并减少了过拟合 (Chavlis and Poirazi,2025 (https://arxiv.org/html/2605.08135#bib.bib17))。树突神经元具有生物学动机;然而,这些方法依赖于 BP,而 BP 并不具备生物合理性。

在本工作中,我们调查了树突神经网络与平衡传播的整合,使用由 Laborieux et al. (2021 (https://arxiv.org/html/2605.08135#bib.bib4)) 提出的先进 EP 框架。我们在 MNIST (LeCun and Cortes,2005 (https://arxiv.org/html/2605.08135#bib.bib13))、Kuzushiji-MNIST (KMNIST) (Clanuwat et al.,2018 (https://arxiv.org/html/2605.08135#bib.bib14)) 和 Fashion-MNIST (FMNIST) (Xiao et al.,2017 (https://arxiv.org/html/2605.08135#bib.bib15)) 上评估了我们的方法。结果表明,所提出的树突 EP 模型优于没有树突结构的标准 EP 神经网络,并达到了与使用时间反向传播训练的树突网络相竞争的性能。

为了进一步理解树突结构的影响,我们还通过可视化自由阶段期间的隐藏状态轨迹来分析模型的内部动力学。这种分析提供了关于树突架构如何影响网络表示的见解,超越了单纯的性能指标。

## 2 方法

在本节中,我们将讨论平衡传播、树突神经元以及模型和数据集规范。

### 2.1 平衡传播

平衡传播(EP)(Scellier and Bengio,2017 (https://arxiv.org/html/2605.08135#bib.bib1),2019 (https://arxiv.org/html/2605.08135#bib.bib2); Ernoult et al.,2019 (https://arxiv.org/html/2605.08135#bib.bib3); Laborieux et al.,2021 (https://arxiv.org/html/2605.08135#bib.bib4); Laborieux and Zenke,2022 (https://arxiv.org/html/2605.08135#bib.bib5)) 是一种基于能量最小化的具有生物合理性的学习算法。给定输入 $\mathbf{x}$,网络的状态变量 $\mathbf{s}$ 向由能量函数 $E(\mathbf{s}; \theta)$ 确定的固定点演化,其中 $\theta$ 表示模型参数。

在自由阶段,网络在没有任何教学信号的情况下演化:

$$ \frac{d\mathbf{s}}{dt} = -\frac{\partial E(\mathbf{s}; \theta)}{\partial \mathbf{s}}. \tag{1} $$

这一阶段收敛到一个自由固定点,记为 $\mathbf{s}^{0}$:

$$ \mathbf{s}^{0} = \arg\min_{\mathbf{s}} E(\mathbf{s}; \theta). \tag{2} $$

在微扰阶段(nudged phase),输出层被损失函数 $\ell(\mathbf{s}, \mathbf{y})$ 微弱地驱动,其中 $\mathbf{y}$ 是目标标签。对于正微扰强度 $+\beta$,动力学方程为:

$$ \frac{d\mathbf{s}}{dt} = -\frac{\partial E(\mathbf{s}; \theta)}{\partial \mathbf{s}} - \beta \frac{\partial \ell(\mathbf{s}, \mathbf{y})}{\partial \mathbf{s}}, \tag{3} $$

这收敛到一个正微扰固定点 $\mathbf{s}^{+\beta}$。

标准的两阶段 EP 更新估计为:

$$ \Delta \theta \propto \frac{1}{\beta} \left( \frac{\partial E(\mathbf{s}^{+\beta}; \theta)}{\partial \theta} - \frac{\partial E(\mathbf{s}^{0}; \theta)}{\partial \theta} \right). \tag{4} $$

在本研究中,我们使用由 Laborieux et al. (2021 (https://arxiv.org/html/2605.08135#bib.bib4)) 提出的对称微扰变体。除了正微扰阶段外,网络还在相反方向使用 $-\beta$ 进行微扰:

$$ \frac{d\mathbf{s}}{dt} = -\frac{\partial E(\mathbf{s}; \theta)}{\partial \mathbf{s}} + \beta \frac{\partial \ell(\mathbf{s}, \mathbf{y})}{\partial \mathbf{s}}. \tag{5} $$

这一阶段收敛到一个负微扰固定点 $\mathbf{s}^{-\beta}$。

对称 EP 更新使用中心有限差分计算:

$$ \Delta \theta \propto \frac{1}{2\beta} \left( \frac{\partial E(\mathbf{s}^{+\beta}; \theta)}{\partial \theta} - \frac{\partial E(\mathbf{s}^{-\beta}; \theta)}{\partial \theta} \right). \tag{6} $$

与标准的两阶段估计器相比,这种中心估计器减少了有限微扰引入的偏差。这在深层网络中特别有用,因为准确的反馈信号对于稳定的信用分配至关重要。

### 2.2 树突神经元

生物神经元通过不同的树突 compartment(主要是基底树突和顶端树突)接收输入。基底树突整合来自较低层的前馈输入,而顶端树突接收来自较高层的反馈信号。这些 compartment 在胞体进行整合之前局部处理信号,使得前馈和反馈通路之间能够进行结构化和非线性交互。

为了模拟这种机制,我们引入了一种树突神经网络架构,其中每个神经元接收两种类型的输入:基底(前馈)输入和顶端(反馈)输入。我们的实现遵循最近的树突神经网络模型,这些模型将每个神经元表示为具有在胞体聚合输出的非线性树突分支集合 (Han et al.,2022 (https://arxiv.org/html/2605.08135#bib.bib18))。与详细的生物学 compartment 模型不同,我们采用了一种简化且计算高效的公式,使其与平衡传播兼容。

形式上,对于隐藏层 $\ell$,基底和顶端输入定义为:

$$ \mathbf{b}^{\ell} = f_{b}(\mathbf{W}^{\ell}\mathbf{s}^{\ell-1}), \quad \mathbf{a}^{\ell} = f_{a}(\mathbf{B}^{\ell}\mathbf{s}^{\ell+1}), \tag{7} $$

其中 $\mathbf{W}^{\ell}$ 和 $\mathbf{B}^{\ell}$ 分别表示基底和顶端连接,$f_{b}(\cdot)$ 和 $f_{a}(\cdot)$ 表示非线性树突变换。

每个树突 compartment 由多个稀疏分支组成。每个分支连接到突触前神经元的一个子集,应用线性变换后接非线性变换,并产生局部响应。然后聚合这些分支的输出以形成树突输入。令 $z_{i,k}^{\ell}$ 表示与第 $\ell$ 层神经元 $i$ 相关的第 $k$ 个分支的输出。基底输入计算为:

$$ b_{i}^{\ell} = \frac{1}{K} \sum_{k=1}^{K} z_{i,k}^{\ell}, \tag{8} $$

其中 $K$ 是每个神经元的分支数量。顶端输入使用类似的公式。

在实践中,基底和顶端分支的数量、分支稀疏性以及顶端反馈的缩放被视为超参数。我们在实验中使用的具体值在第 2.3 节 (https://arxiv.org/html/2605.08135#S2.SS3) 中提供。

胞体激活是通过结合基底和顶端输入获得的:

$$ \mathbf{s}^{\ell} = \sigma(\mathbf{b}^{\ell} + \alpha \mathbf{a}^{\ell}), \tag{9} $$

其中 $\sigma(\cdot)$ 是激活函数,$\alpha$ 控制顶端反馈信号的相对强度。

这种树突公式引入了对前馈和反馈信号的结构化、稀疏和非线性处理,同时保持计算高效并与平衡传播兼容。与以前基于反向传播的工作不同,我们的方法将这种树突架构与具有生物合理性的学习规则相结合。该部分的总结如图 1(a) (https://arxiv.org/html/2605.08135#S3.F1.sf1) 所示。

表 1:EP、DEP 和 DBPTT 的超参数总结在此表中。这里,$\alpha_1$ 指的是更新输入层和隐藏层之间权重的学习率,$\alpha_2$ 是更新隐藏层和输出层(如果有两个隐藏层,则是另一个隐藏层)之间权重的学习率,$\alpha_3$ 是更新隐藏层和输出层之间权重(如果有两个隐藏层)的学习率。“自由阶段”和“钳位阶段”列分别指定了在自由和弱钳位阶段使用的时间步数。$\beta$ 是弱钳位阶段的微扰参数。

### 2.3 模型和数据集规范

我们在 MNIST (LeCun and Cortes,2005 (https://arxiv.org/html/2605.08135#bib.bib13))、Kuzushiji-MNIST (KMNIST) (Clanuwat et al.,2018 (https://arxiv.org/html/2605.08135#bib.bib14)) 和 Fashion-MNIST (FMNIST) (Xiao et al.,2017 (https://arxiv.org/html/2605.08135#bib.bib15)) 上评估了带有树突神经元的平衡传播模型(DEP)。我们与两个基线进行比较:(i) 没有树突结构的标准 EP 模型(EP),以及 (ii) 使用时间反向传播(Backpropagation Through Time, BPTT)训练的树突模型(DBPTT)。

我们在实验中使用的超参数总结在表 1 (https://arxiv.org/html/2605.08135#S2.T1) 中。对于 MNIST,我们使用具有 256 个单元的单隐藏层。对于 KMNIST 和 FMNIST,我们为所有模型使用两个隐藏层(256×256),以反映这些数据集复杂性的增加。

对于激活函数,我们在大多数配置中使用硬 Sigmoid 函数。然而,对于 FMNIST 上的 EP 模型,我们使用 tanh 激活,因为我们经验性地观察到硬 Sigmoid 在该数据集上导致训练不稳定。

对于树突神经元,我们在所有数据集上使用固定的配置,包括 8 个基底分支、2 个顶端分支、0.5 的分支稀疏性和 0.2 的顶端缩放因子。选择这些设置是为了平衡模型表达能力和计算效率。对于树突分支内的非线性变换,我们使用整流线性单元(ReLU)激活函数。

我们使用动量为 0.9 的随机梯度下降(SGD)训练所有模型。为了在模型之间保持一致性并避免引入额外的优化相关混淆因素,我们不使用 Adam (Kingma and Ba,2014 (https://arxiv.org/html/2605.08135#bib.bib19)) 等自适应优化方法。

## 3 结果

表 2:EP、树突 EP (DEP) 和树突 BPTT (DBPTT) 在不同数据集上的训练和测试准确率 (%)。结果报告为多次运行的平均值 ± 标准差。参见图注 (a) 树突神经元架构
参见图注 (b) MNIST
参见图注 (c) KMNIST
参见图注 (d) FMNIST

图 1:树突架构和学习动力学。(a) 树突神经元的插图,前馈输入通过基底分支处理,反馈信号通过顶端分支处理,然后在胞体整合。(b–d) EP、树突 EP (DEP) 和树突 BPTT (DBPTT) 在 MNIST、KMNIST 和 FMNIST 上的测试准确率学习曲线。阴影区域表示多次运行的标准差。

### 3.1 MNIST

表 2 (https://arxiv.org/html/2605.08135#S3.T2) 的第一行报告了所有模型在 MNIST 上的性能。在该数据集上,所有方法都取得了可比的结果,最终测试准确率没有显著差异。

图 1(b) (https://arxiv.org/html/2605.08135#S3.F1.sf2) 显示了相应的学习曲线。我们观察到标准 EP 模型收敛更快,在更少的 epoch 内达到其最佳性能。相比之下,两种树突模型(DEP 和 DBPTT)需要更多的 epoch 才能达到其最大准确率,尽管它们的最终性能仍然相似。

### 3.2 Kuzushiji-MNIST

表 2 (https://arxiv.org/html/2605.08135#S3.T2) 的第二行总结了 KMNIST 上的结果。与 MNIST 不同,在这个更具挑战性的数据集上,模型之间出现了更明显的差异。

如图 1(c) (https://arxiv.org/html/2605.08135#S3.F1.sf3) 所示,与 other methods 相比,DEP 收敛所需的时间步稍多。然而,它实现了比标准 EP (88.54±0.33%) 高得多的测试准确率 (90.02±0.27%),并接近 DBPTT (91.92±0.09%) 的性能。这表明结合树突...

相似文章

扩散Fitzhugh-Nagumo模型中的均衡传播与哈密顿推断

arXiv cs.LG

本文将均衡传播扩展到斜梯度系统,并展示了深度能量模型与哈密顿神经网络之间的等价性,重点关注扩散耦合的Fitzhugh-Nagumo神经元。它还推导了此类网络中用于推理的逐层哈密顿递归关系。

论结构可塑性中增长的稳定性

arXiv cs.LG

本文研究神经网络结构可塑性中剪枝与增长之间的不对称性,表明新生单元比现有单元受到更弱的梯度信号,并提出改进整合的干预措施。