XOResNet: 异或元残差促进深度脉冲神经网络学习
摘要
XOResNet 引入了 OR-ADD 捷径连接和 XOR 元残差,以解决深度脉冲神经网络中的脉冲冗余和信息丢失问题,在 Fashion-MNIST、CIFAR-10、CIFAR-100 和 miniImageNet 上取得了最先进的结果。
arXiv:2605.30362v1 公告类型: cross
摘要: 脉冲神经网络 (SNN) 有望在深度模型中展现出卓越的学习和表征能力。鉴于 ResNet 在深度学习中的巨大成功,自然可以尝试使用残差学习来训练深度 SNN。然而,现有的用于构建深度 SNN 的残差结构仍然存在脉冲冗余或信息丢失以及冗余学习的挑战。在本研究中,我们首先旨在解决恒等映射中的相对脉冲冗余和非恒等映射中的信息丢失问题。为此,我们提出了一种 OR-ADD (OA) 捷径连接,用于合并残差结构中两个分支的输出脉冲/电流。此外,为了减轻残差结构主干分支中的冗余学习,我们引入了 XOR 元残差的概念,即使用异或 (XOR) 操作为主干分支选择预学习残差。最后,通过集成 OA 捷径和 XOR 元残差,我们设计了 XOR 残差块,并进一步基于该块构建了不同深度的 XOResNet。在四个数据集 (Fashion-MNIST、CIFAR-10、CIFAR-100 和 miniImageNet) 上进行的大量实验表明,所提出的 XOResNet 优于通过梯度下降优化的现有最先进深度 SNN。这些结果验证了我们的 OA 捷径和 XOR 元残差组件在克服 SNN 中残差学习基本限制方面的有效性,为构建高性能神经形态系统提供了新的架构见解。
查看缓存全文
缓存时间: 2026/06/01 09:28
# XOResNet:异或元残差促进深度脉冲神经网络学习
来源:https://arxiv.org/html/2605.30362
Junsong Wanghttps://orcid.org/0000-0002-4846-6585\{\}^\{\\lx@orcidlink\{0000\-0002\-4846\-6585\}\{\\orcidlogo\}\}wangjunsong@sztu\.edu\.cn (https://arxiv.org/html/2605.30362v1/mailto:[email protected])深圳技术大学人工智能学院,深圳 518118,中国澳门城市大学数据科学学院,澳门 999078,中国
###### 摘要
脉冲神经网络 (SNNs) 有望在深度模型中展现出优越的学习和表示能力。鉴于 ResNet 在深度学习中的巨大成功,很自然地会尝试用残差学习来训练深度 SNN。然而,现有的用于构建深度 SNN 的残差结构仍然存在脉冲冗余或信息丢失以及冗余学习的问题。在本研究中,我们首先旨在解决恒等映射中的相对脉冲冗余和非恒等映射中的信息丢失问题。为此,我们提出了一种 OR-ADD (OA) 捷径连接,用于合并残差结构中两个分支的输出脉冲/电流。此外,为了减轻残差结构中主干分支的冗余学习,我们引入了 XOR 元残差的概念,即使用异或 (XOR) 操作为主干分支选择预学习残差。最后,通过集成 OA 捷径和 XOR 元残差,我们设计了 XOR 残差块,并基于此构建了不同深度的 XOResNet。在 Fashion-MNIST、CIFAR-10、CIFAR-100 和 miniImageNet 四个数据集上的大量实验表明,所提出的 XOResNet 优于现有的通过梯度下降优化的最先进深度 SNN。这些结果验证了我们提出的 OA 捷径和 XOR 元残差组件在克服 SNN 中残差学习基本局限性方面的有效性,为构建高性能神经形态系统提供了新的架构见解。
###### 关键词:
脉冲神经网络,残差学习,OR-ADD (OA) 捷径连接,异或 (XOR) 元残差
††期刊:LATEX## 1 引言
受人类大脑工作机制和生物神经元工作模式的启发,脉冲神经网络 (SNN) 被认为是人工智能中一种有前景的模型,体现了类似大脑的高效率 (Roy et al. [2019] (https://arxiv.org/html/2605.30362#bib.bib1))。同时,SNN 也被认为是第三代神经网络,因为它们具有异步二元脉冲通信的能量优势和强大的时空动态表示能力 (Maass [1997] (https://arxiv.org/html/2605.30362#bib.bib2))。通过借鉴和模仿人工神经网络 (ANN) 的学习算法和网络结构,SNN 在某些分类任务上表现出接近 ANN 的性能,但在复杂任务上仍逊于 ANN (Guo et al. [2023] (https://arxiv.org/html/2605.30362#bib.bib3), Fang et al. [2021] (https://arxiv.org/html/2605.30362#bib.bib4), Xian et al. [2024] (https://arxiv.org/html/2605.30362#bib.bib6), Tan et al. [2021] (https://arxiv.org/html/2605.30362#bib.bib7), Vicente-Sola et al. [2025] (https://arxiv.org/html/2605.30362#bib.bib8))。一个重要原因是离散的脉冲和复杂的时空动态限制了 SNN 直接采用 ANN 的深度构建方法。然而,深度网络在计算成本和表示能力方面优于浅层网络 (Bengio et al. [2007] (https://arxiv.org/html/2605.30362#bib.bib5))。
人工神经网络在各种任务中取得了巨大成功,这在很大程度上归功于深度学习的成功。网络的深度与其在实际任务上的性能密切相关,而深度网络所表示的函数需要由指数数量神经单元构成的单隐层网络才能与之媲美 (Montufar et al. [2014] (https://arxiv.org/html/2605.30362#bib.bib9))。为了解决深度神经网络中的梯度问题,He et al. (He et al. [2016] (https://arxiv.org/html/2605.30362#bib.bib10)) 提出了残差学习的概念,并使用残差结构构建了“非常深”的网络。因此,残差结构被广泛用于深度神经网络的构建,并催化了深度学习的快速发展。
为了在 SNN 中实现更高的性能,自然地会尝试用残差结构构建更深的网络。脉冲版本的 ResNet (Spiking ResNet) (Hu et al. [2021] (https://arxiv.org/html/2605.30362#bib.bib11), Sengupta et al. [2019] (https://arxiv.org/html/2605.30362#bib.bib12), Han et al. [2020] (https://arxiv.org/html/2605.30362#bib.bib13)) 通过用脉冲神经元替换 ANN 中的非线性激活单元,在大多数数据集上取得了最先进的性能。然而,Spiking ResNet 仍然存在由梯度问题引起的性能下降。同时,简单地从 ANN 移植捷径连接可能会破坏基于脉冲的恒等映射。为了使用时空反向传播 (STBP) (Wu et al. [2018] (https://arxiv.org/html/2605.30362#bib.bib16)) 训练深度 SNN,Fang et al. (Fang et al. [2021] (https://arxiv.org/html/2605.30362#bib.bib4)) 通过求和两个分支的输出脉冲来解决梯度问题,构建了 SEW ResNet,一个超过 100 层的深度 SNN 模型。然而,这种脉冲求和的方法会导致非脉冲计算,不利于部署在处理二元输入的神经形态芯片上 (Shen et al. [2024] (https://arxiv.org/html/2605.30362#bib.bib14))。为了保持捷径连接中脉冲的二元性,Shan et al. (Shan et al. [2023] (https://arxiv.org/html/2605.30362#bib.bib15)) 使用 OR 操作来合并两个分支的输出脉冲。这保持了脉冲的二元性,同时减少了脉冲冗余。然而,当捷径连接涉及具有缩放变换的非恒等映射时,OR 操作可能导致两个分支的联合信息丢失。
此外,现有的构建深度 SNN 的方法几乎完全采用了 ResNet 的残差结构 (He et al. [2016] (https://arxiv.org/html/2605.30362#bib.bib10))。这可能导致主干分支相对于捷径分支在残差学习中出现脉冲冗余。ResNet 中的残差分支(主干分支)专门用于捕获残差特征——具体来说,是层输入与恒等捷径输出之间的差分分量。然而,只有在两个分支的信息融合之后,才能真正确定学习到的残差信息。换句话说,主干分支并没有预先确定需要学习什么残差信息,即主干分支的残差是后验学习的残差。在通过二元脉冲传输信息的情况下,两个分支中可能存在相对脉冲冗余。这也可能导致主干分支中的冗余学习。为了减少脉冲冗余和冗余学习,应该为主干分支提供预学习残差指导,即选择预学习残差。
在本研究中,我们考虑了构建深度 SNN 中捷径连接的两种情况:恒等映射中的脉冲操作和非恒等映射中的信息保留与利用。为了减少主干分支相对于捷径分支的脉冲冗余并促进主干分支的残差学习,我们提出利用异或 (XOR) 运算为主干分支提供预学习残差,即元残差。我们使用上述方法构建残差块,并用它们构建名为 XOResNet 的深度 SNN,该网络始终优于 OA ResNet 和 OR ResNet。我们将 XOResNet 加深到 110 层而没有遇到任何退化问题,理论上可以加深到任何期望的深度。
本研究的主要贡献和亮点可总结如下:
1. (i) 针对残差结构的捷径连接,我们提出了 OR-ADD (OA) 连接方法。如果捷径分支实现脉冲恒等映射,则通过 OR 操作合并捷径分支和主干分支的输出脉冲,在保持脉冲二元性的同时实现信息互补。如果捷径分支实现具有尺度变换的非恒等映射,则使用两个分支输出电流之和作为脉冲神经元的输入,以避免信息丢失。
2. (ii) 针对主干分支中的残差学习,我们提出利用 XOR 操作预先筛选需要学习的残差特征,从而为主干分支提供预学习残差(即元残差)。这种方法旨在减少主干分支的冗余学习,增强其残差学习能力。
3. (iii) 我们集成 OA 捷径和 XOR 元残差,构建了名为 XOResNet 的深度 SNN。在四个基准数据集(CIFAR-10、CIFAR-100、Fashion-MNIST 和 miniImageNet)上的广泛比较表明,XOResNet 始终优于 OA ResNet 和 OR ResNet。这证明了我们提出的残差结构的效率。
本文的其余部分组织如下。第 2 节 (https://arxiv.org/html/2605.30362#S2) 概述了构建深度 SNN 的相关工作。在第 3 节 (https://arxiv.org/html/2605.30362#S3) 中,我们详细描述了所提出的捷径分支连接方法 OR-ADD (OA)、残差信息提取方法以及构建的 XOResNet 网络。在第 4 节 (https://arxiv.org/html/2605.30362#S4) 中,我们系统地介绍了数据集和实验结果。在第 5 节 (https://arxiv.org/html/2605.30362#S5) 中,我们对工作进行详细讨论。最后,在第 6 节 (https://arxiv.org/html/2605.30362#S6) 中,我们给出结论和进一步的工作。
## 2 相关工作
深度网络在计算成本和表示能力方面优于浅层网络。构建深度 SNN 的研究工作可以分为两大类:(1) 将预训练的深度 ANN 转换为 SNN,以及 (2) 通过时空反向传播 (STBP) 使用残差结构训练深度 SNN。
**ANN 到 SNN 的转换 (ANN2SNN)** ANN2SNN 使用脉冲神经元替换预训练源 ANN 的非线性激活单元 (Stöckl and Maass [2021] (https://arxiv.org/html/2605.30362#bib.bib17), Tang et al. [2023] (https://arxiv.org/html/2605.30362#bib.bib18))。这种方法的核心思想是利用脉冲神经元的发放率或平均突触后电位来近似人工神经元中的 ReLU 激活 (Shao et al. [2023] (https://arxiv.org/html/2605.30362#bib.bib19))。一些先进的转换工作在 VGG 和 ResNet 架构上通过添加诸如权重归一化和阈值平衡等缩放技巧实现了近乎无损的精度 (Hu et al. [2021] (https://arxiv.org/html/2605.30362#bib.bib11), Sengupta et al. [2019] (https://arxiv.org/html/2605.30362#bib.bib12), Han et al. [2020] (https://arxiv.org/html/2605.30362#bib.bib13), Duan et al. [2022] (https://arxiv.org/html/2605.30362#bib.bib20))。然而,必须对脉冲神经元执行数百或数千次发放统计,以使其发放率接近 ReLU 的激活输出。
**基于 STBP 使用残差结构训练深度 SNN** 不可微的二元脉冲活动导致无法直接通过反向传播 (BP) (LeCun et al. [1988] (https://arxiv.org/html/2605.30362#bib.bib21), Lillicrap et al. [2020] (https://arxiv.org/html/2605.30362#bib.bib22)) 算法训练 SNN,然而,BP 在训练深度 ANN 方面的巨大成功对 SNN 的训练非常具有吸引力。一种称为时空反向传播的算法 (Wu et al. [2018] (https://arxiv.org/html/2605.30362#bib.bib16)) 被提出用于训练 SNN,该方法通过在误差反向传播过程中引入可微函数的梯度来替代 Heaviside 阶跃函数的梯度。在基于 STBP 训练深度 SNN 的工作中,Spiking ResNet (Hu et al. [2021] (https://arxiv.org/html/2605.30362#bib.bib11), Sengupta et al. [2019] (https://arxiv.org/html/2605.30362#bib.bib12), Han et al. [2020] (https://arxiv.org/html/2605.30362#bib.bib13)) 是 ResNet 的脉冲版本,完全采用了 ResNet 的连接结构,但仍然存在由梯度问题引起的性能下降。SEW ResNet 通过对主干分支和捷径分支的输出脉冲求和来解决 Spiking ResNet 中的梯度问题,使得深度超过 100 层成为可能 (Fang et al. [2021] (https://arxiv.org/html/2605.30362#bib.bib4))。然而,脉冲求和破坏了脉冲的二元性 (1+1=21+1=2),妨碍了在具有二元输入的神经形态芯片上的部署 (Shen et al. [2024] (https://arxiv.org/html/2605.30362#bib.bib14))。为了保持脉冲的二元性,Shan et al. (Shan et al. [2023] (https://arxiv.org/html/2605.30362#bib.bib15)) 提出使用 OR 操作来合并主干分支和捷径分支的输出脉冲。然而,当捷径连接是具有尺度变换的非恒等映射时,OR 操作可能导致两个分支的联合信息丢失。Hu et al. (Hu et al. [2024] (https://arxiv.org/html/2605.30362#bib.bib23)) 直接合并两个分支的输出电流,提出了 MS-ResNet,这避免了脉冲操作引起的一些问题。随后,这种残差连接方法也被用于构建脉冲版本的 Transformer (Yao et al. [2023] (https://arxiv.org/html/2605.30362#bib.bib24))。然而,这也可能导致恒等映射期间输出脉冲的冗余。此外,上述工作没有考虑到脉冲通信的特异性和优势,导致主干分支存在一定程度的冗余学习。
## 3 方法
### 3.1 残差结构中的捷径连接
深度神经网络比浅层网络具有更强大的表示能力,这一事实同样适用于 SNN。简单地增加 SNN 的深度不可避免地会遇到 ANN 中出现的性能退化问题。忽略 SNN 和 ANN 的差异并完全复制 ResNet 的残差结构,也无法解决深度 SNN 在基于梯度的训练中的性能退化问题。由两个基本构建块构建的网络是 Plain Network 和 Spiking ResNet,如图 1 (https://arxiv.org/html/2605.30362#S3.F1) 所示,但这两个深度网络都遭受性能退化(如图 2 (https://arxiv.org/html/2605.30362#S3.F2) 所示)。
参见图注
图 1: 深度 SNN 的基本构建块。(a) Plain Network 中的基本构建块。(b) Spiking ResNet 中的基本构建块。Sl\[t\]S^\{l\}\[t\]/Ol\[t\]O^\{l\}\[t\] 表示 l 层在时间 t 的输入/输出脉冲。1×11\\times 1 和 3×33\\times 3 表示卷积核大小。BNBN 是批归一化操作。SNSN 表示脉冲神经元。参见图注 (a) Plain Network
参见图注 (b) Spiking ResNet
图 2: 在 CIFAR-10 上不同深度模型的训练准确率和测试准确率。在这项工作中,我们考虑了 SNN 中脉冲通信的特殊性。对于残差结构中的捷径连接,我们提出了 OR-ADD (相似文章
直接在DRAM中运行AI:浮点数解毒——纯逻辑如何释放学习的未来
BIN16在神经网络训练和推理中用布尔运算(XNOR+popcount)替代所有浮点运算,使得在现成的DRAM中直接计算成为可能,无需浮点数、梯度或超参数调优。仅用220行C代码,它就在一个训练周期内在MNIST上达到了82%的准确率。
DisjunctiveNet: 通过可微凸优化层实现的神经符号学习
介绍DisjunctiveNet,一个统一的端到端框架,通过可微凸优化层在神经网络中强制执行硬性的、输入相关的混合整数线性约束,在真实世界数据集上实现完美的规则满足。
Bug or Feature^2:权重漂移、激活稀疏性与尖峰
本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。
即插即用脉冲算子:突破脉冲Transformer中的非线性瓶颈
本文提出一种即插即用框架,通过LIF神经元的种群计算和轻量级位移缩放,实现Transformer非线性(如Softmax、SiLU、归一化)的脉冲友好近似,在无需微调的LLMs上准确率下降不到1%。
ResBM:一种基于Transformer的新型架构,用于低带宽流水线并行训练,实现128倍激活压缩 [R]
ResBM提出了一种基于Transformer的架构,采用残差编码器-解码器瓶颈用于流水线并行训练,在保持收敛的同时实现了128倍激活压缩。该工作通过减少阶段间通信开销,推进了去中心化、互联网级分布式训练的发展。