即插即用脉冲算子:突破脉冲Transformer中的非线性瓶颈

arXiv cs.LG 论文

摘要

本文提出一种即插即用框架,通过LIF神经元的种群计算和轻量级位移缩放,实现Transformer非线性(如Softmax、SiLU、归一化)的脉冲友好近似,在无需微调的LLMs上准确率下降不到1%。

arXiv:2605.20289v1 Announce Type: new 摘要:ANN到SNN的转换提供了一种实用且免训练的方法来构建脉冲大语言模型。然而,当前流水线主要关注Transformer线性代数运算的脉冲驱动实现,而对关键非线性算子的支持有限。这一差距限制了与神经形态执行约束的兼容性,这些约束中的非线性通常需要除法、指数或范数计算,而这些计算无法被标准漏积分点火动力学自然支持。为解决此问题,我们提出一种即插即用框架,实现Transformer非线性的脉冲友好近似,并集成到现有ANN到SNN流水线中。我们的方法将这些非线性计算分解为三种反复出现的原语——除法、指数和$\ell_2$范数——并通过使用LIF神经元群的种群计算结合轻量级位移缩放来实现,从而避免浮点运算。通过将这些原语组合为模块化算子块,我们的框架支持常见的Transformer非线性(如Softmax、SiLU和归一化),无需任何微调。在一系列LLM Transformer上的实验表明,选择性替换目标非线性算子在所有评估任务中造成的准确率下降不到$1\%$。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:21

# 即插即用的脉冲算子:打破脉冲Transformer中的非线性瓶颈
来源:https://arxiv.org/html/2605.20289
###### 摘要

ANN-to-SNN转换为实现脉冲大语言模型提供了一条实用且免训练的路径。然而,当前的转换流程主要关注Transformer线性代数运算的脉冲驱动实现,而对关键非线性算子的支持有限。这一差距限制了其与神经形态执行约束的兼容性,因为此类非线性通常需要除法、指数运算或范数计算,而这些在标准的漏积分点火动力学中并未得到自然支持。为解决这一问题,我们提出了一种即插即用框架,为Transformer非线性算子实现了脉冲友好的近似,并可集成到现有ANN-to-SNN转换流程中。我们的方法将这些非线性计算分解为三个重复出现的原语——除法、指数运算和 ℓ₂ 范数——并通过使用LIF神经元群进行群体计算,结合轻量级位移缩放以避免浮点运算,从而实现这些原语。通过将这些原语组合为模块化的算子块,我们的框架支持常见的Transformer非线性(例如Softmax、SiLU和归一化),无需任何微调。在一系列LLM Transformer上的实验表明,选择性替换目标非线性算子在所有评估任务上导致的精度下降小于1%。

机器学习,ICML

## 1 引言

近年来,脉冲神经网络(SNN)因其在神经形态硬件上节能、事件驱动的计算而受到越来越多的关注 (Roy et al., 2019; Davies et al., 2018; Akopyan et al., 2015)。这些模型在计算机视觉和自然语言处理方面都展示了有希望的结果 (Cao et al., 2015; Zhou et al., 2023; Lv et al., 2023; Zhu et al., 2023)。与此同时,基于Transformer的基础模型,特别是大语言模型(LLM),已成为主导的推理工作负载。其成本主要由密集的线性代数及相关的内存流量驱动 (Horowitz, 2014)。

受此启发,近期的脉冲Transformer和SNN-LLM工作越来越多地采用ANN-to-SNN转换来降低推理成本,而无需昂贵的重训练 (Rueckauer et al., 2017; Chen et al., 2025a, b; You et al., 2024)。这些方法主要将Transformer的线性计算,例如注意力矩阵乘法和前馈投影,转换为脉冲驱动的实现,利用事件稀疏性提高能效 (Rueckauer et al., 2017; Yan et al., 2024)。

然而,这种以脉冲为中心的研究范式对于Transformer架构来说仍不完整,因为现有工作很少提供关键非线性算子(如激活函数、归一化层和Softmax)的脉冲基实现 (Zhou et al., 2023; Shi et al., 2024)。尽管从能耗核算的角度来看,这些组件通常被认为是次要的 (Horowitz, 2014),但在严格的纯脉冲部署约束下,它们变得至关重要。它们很难用标准的漏积分点火(LIF)神经元表示,因为它们通常需要除法或范数计算,而这些并非LIF动力学的自然产物。更重要的是,在仅支持脉冲基原语的神经形态硬件平台上,连续值状态不可用,这使得传统实现成为部署的根本障碍 (Davies et al., 2018, 2021)。因此,在严格的纯脉冲约束下,现有的ANN-to-SNN方法往往无法实现真正的端到端脉冲Transformer,*包括其非线性部分* (Zhu et al., 2023; Lv et al., 2023)。

为了解决这一局限性,少数工作通过脉冲计算来近似Transformer的非线性。但它们通常需要额外的训练,限制了其与标准ANN-to-SNN转换流程的兼容性 (Tang et al., 2025)。受这些观察的启发,我们提出了以下自然且重要的问题:我们能否在ANN-to-SNN流程中为非线性算子设计即插即用的脉冲基转换?

在这项工作中,我们通过开发无需训练的、与标准LIF动力学兼容的脉冲基替代方案,对这个问题给出了肯定的回答。我们识别了Transformer推理中反复出现的三种原始非线性计算:除法、指数运算和 ℓ₂ 范数,它们构成了Softmax、SiLU和RMSNorm的计算核心。我们的脉冲友好实现基于使用LIF神经元群的群体计算,以及避免浮点运算的简单位移缩放。通过为这些原语构建近似并将它们组合为模块化的算子块,我们在严格的纯脉冲约束下获得了上述Transformer非线性算子的全脉冲实现,而无需任何额外的微调。

这些算子级别的模块是可组合的,可以插入现有的ANN-to-SNN转换流程,以构建端到端的脉冲Transformer块,同时尊重神经形态硬件原生支持的纯脉冲原语和轻量级数字运算。我们的主要贡献总结如下:

- • 我们提出了一种脉冲友好的方法来近似Transformer非线性算子。我们的方法在算子级别运作,可以无缝集成到现有的ANN-to-SNN转换流程中,无需对模型权重进行任何修改。
- • 我们为转换误差提供了理论保证。我们证明了在温和条件下,我们基于脉冲的非线性算子近似具有可证明的有界转换误差。此外,我们确定了能够实现高近似精度的具体配置。
- • 我们通过实验证明了所提方法在不同模型上的适用性。我们在两个广泛使用的ANN-to-SNN转换框架上测试了我们的方法。此外,我们将我们的方法应用于以前未转换为SNN的知名模型,例如Qwen3,通过选择性地替换其非线性算子,同时保持其他计算部分不变,以验证我们方法的广泛适用性。

## 2 相关工作

早期的ANN-to-SNN转换方法使用发放率编码和缩放对齐来近似连续ANN激活。Diehl等人引入了权重和阈值平衡,以实现深层脉冲网络的快速、准确推理 (Diehl et al., 2015)。Sengupta等人进一步将这种转换范式扩展到更深层的架构,证明VGG和残差网络可以转换为SNN而无需重训练,同时保持有竞争力的性能 (Sengupta et al., 2019)。随着Transformer成为主导模型类别,You等人提出了SpikeZIP-TF,通过脉冲注意力层和前馈层中的线性投影,系统地将ANN-to-SNN转换应用于Transformer架构 (You et al., 2024)。在大语言模型的规模上,Xing等人引入了SpikeLLM,它使用显著性驱动的脉冲分配来构建大规模脉冲语言模型,并报告了与标准低位推理流程相比的效率-精度权衡 (Xing et al., 2025)。

与上述主要关注密集线性代数的工作不同,Sorbet使用基于位移的离散运算构建了非线性函数的脉冲基实现,并应用知识蒸馏和微调来使脉冲模型与原始BERT行为对齐 (Tang et al., 2025)。尽管它指出了非线性算子的问题,但其方法需要训练,并且与其他流程不兼容。

## 3 预备知识

##### 脉冲神经元和时间累积

SNN在离散时间步 t=1,...,T 上处理信息。在每个时间步,神经元发放二元脉冲,并通过时间累积的活动进行通信。因此,实值量可以通过在有限时间窗口内的脉冲计数来隐式表示。

实际上,ANN-to-SNN转换方法通常依赖于基于发放率的表示,其中累积的脉冲活动近似人工神经元的激活:

a_{SNN} ≈ ∑_{t=1}^{T} s^t · θ,      (1)

其中 s^t ∈ {0,1} 表示时间步 t 的脉冲,θ 是发放阈值。在适当的缩放下,期望脉冲计数与量化后的ANN激活匹配,从而在ANN激活和SNN脉冲统计量之间建立直接对应关系 (Rueckauer et al., 2017)。

##### 漏积分点火神经元

LIF神经元是SNN中最常用的神经元模型。在离散时间中,其动力学由下式给出:

v(t)     = λ v(t-1) + I(t),      (2)
s(t)     = I[ v(t) ≥ θ ],      (3)
v(t)     ← v(t) - s(t) θ,      (4)

其中 v(t) 表示膜电位,I(t) 是输入电流,λ ∈ (0,1] 是漏电因子,θ 是发放阈值,I[·] 表示指示函数。

这种累积-阈值-重置机制允许LIF神经元通过时间脉冲累积来近似线性变换,构成了大多数现有ANN-to-SNN转换方法的基础。

## 4 方法

LLM严重依赖于某些涉及指数、除法和平方根的非线性运算。具体来说,以下是我们关注的三个关键函数的公式,它们涉及分子和分母的比率:

φ_{Softmax}(x_i) = \frac{e^{x_i}}{∑_j e^{x_j}},
φ_{SiLU}(x) = \frac{x}{1+e^{-x}},
φ_{RMSNorm}(x) = \frac{x}{\sqrt{\tfrac{1}{d}∑_{i=1}^{d} x_i^2 + ε}}.
      (5)

我们特别关注RMSNorm,因为它涉及归一化中最具挑战性的部分,即 ℓ₂ 范数的计算(通过平方、求和和平方根运算),然后进行除法。通过使用加法运算实现均值减法,RMSNorm的近似也可以很容易地扩展到LayerNorm。

参考图注
图1:除法神经元组概述。
图2:NLSpiking概述。
每个不利于脉冲的函数(SiLU, Softmax, RMSNorm)都使用模块化的脉冲块进行近似:分段线性指数(PWL-EXP)单元、PolarNorm单元和除法神经元。

### 4.1 核心构建块

#### 4.1.1 除法神经元组

我们首先从核心的除法神经元组开始。尽管除法运算很难由神经元直接计算,但整数除法是一个有前途的替代方案。通过将整数除法的误差控制在合理范围内,它可以被视为一种近似除法运算。基于这一原理,我们使用 L 个具有有序阈值且 λ=1 的标准LIF神经元群体来实现一种脉冲原生的除法近似。

如图1所示,在典型用法中,I_A 和 I_B 都是脉冲编码信号。除法运算以两阶段方式进行。在第一个时间窗口内,分母输入 I_B 被时间积分以估计一个归一化尺度。然后,这个尺度被保持固定,并在第二个时间窗口内作为群体阈值应用,此时分子输入 I_A 驱动除法神经元组。这种分离反映了除法依赖于分母的总体幅度,而不是其精确的脉冲时序。

##### 阈值构造。

令 I_B(t) 表示在长度为 T 的第一个时间窗口内的脉冲编码分母输入。我们定义累积分母:

I_B ≜ ∑_{t=1}^{T} I_B(t),      (6)

通过时间积分得到一个标量值。从这个累积值中,我们通过右移导出一个基础阈值:

θ ≜ I_B ≫ n = ⌊ \frac{I_B}{2^n} ⌋,      (7)

并为除法群体中的第 i 个神经元分配阈值:

θ_i = i θ, i = 1, ..., L.      (8)

我们选择时间长度 T 和群体大小 L 均为2的幂,并设置

n = log_2 (T L),      (9)

使得 θ 的有效尺度与时间累积的动态范围相匹配。一旦构造完成,阈值 {θ_i} 在整个后续计算窗口内保持不变。

##### 群体解码为整数除法。

在长度为 T 的第二个时间窗口内,脉冲编码的分子输入 I_A(t) 被施加到除法神经元组。神经元 i 当且仅当 I_A(t) ≥ θ_i = i θ 时发放。我们通过计数活跃神经元的数量来解码商:

q ≜ ∑_{i=1}^{L} s_i, s_i ∈ {0,1};      \hat{q} = q ≫ n,      (10)

这给出

\hat{q} = ∑_{t=1}^{T} max{ i | v(t) ≥ iθ } = ⌊ \frac{∑_{t=1}^{T} v(t)}{θ} ⌋.      (11)

注意到 ⌊ ∑_{t=1}^{T} v(t) / θ ⌋ = ⌊ ∑_{t=1}^{T} I_A(t) / θ ⌋,代入来自(7)的 θ = I_B ≫ n,就完成了除法的脉冲原生离散化,其中分母仅通过位移操作从时间积分的脉冲信号中导出。

#### 4.1.2 PolarNorm单元(PN单元)

在近似了除法之后,第二个挑战来自范数,因为平方和平方根运算同样难以在脉冲计算中执行。为了解决这个问题,我们引入了*PolarNorm单元(PN单元)*。具体来说,我们考虑指数运算...

相似文章

SNLP: 基于结构化牛顿校正的层并行推理

Hugging Face Daily Papers

本文介绍了SNLP,这是一个通过用结构化近似替代精确牛顿校正来实现Transformer层并行推理的框架,在0.5B模型上实现了高达2.3倍的加速,同时降低了困惑度。

全循环Transformer:简单稳定循环

arXiv cs.LG

本文识别出梯度振荡和残差爆炸是循环Transformer训练不稳定的原因,并提出了全循环Transformer,包含两个无需参数调整的修改(全循环架构和注意力注入),能够稳定训练至12次循环迭代,在下游任务性能上实现了高达13.2%的提升。

Bug or Feature^2:权重漂移、激活稀疏性与尖峰

Hugging Face Daily Papers

本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。

利用测试时训练线性化视觉Transformer

Hugging Face Daily Papers

本文提出了一种方法,将预训练的Softmax注意力模型转换为线性复杂度的测试时训练(TTT)架构,在显著加速推理的同时,实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5,在1K分辨率下实现1.32倍加速。