Otters++:一种基于首次脉冲时间的高能效光学尖峰Transformer

arXiv cs.AI 论文

摘要

Otters++ 是一种新型光学尖峰Transformer,利用首次脉冲时间编码和物理硬件衰减实现高能效推理,在GLUE上达到84.17%,同时相比之前的尖峰Transformer基线保持明显的能效优势。

arXiv:2606.13016v1 Announce Type: new 摘要:尖峰神经网络(SNN)有望实现高能效推理,而首次脉冲时间(TTFS)编码尤其具有吸引力,因为每个神经元最多只发放一次脉冲。然而在实践中,这一优势往往因计算时间衰减项并将其与突触权重相乘的成本而减弱。我们通过将物理硬件中的“缺陷”——光电器件中的自然信号衰减——转化为TTFS的主要计算(命名为Otters++)来解决这一问题。具体来说,我们利用定制In$_2$O$_3$光电突触的测量衰减直接实现TTFS时间项,从而省去了显式的数字衰减计算。为了将此思想扩展到Transformer模型,我们建立了Otters++与量化神经网络(QNN)之间的逐层功能等价性,并开发了一种混合训练方法,该方法在前向传播中使用忠实于器件的SNN计算,在反向传播中通过等效的QNN路径使用QNN直通梯度,同时结合模型蒸馏。这避免了通过离散首次脉冲事件进行求导,并减少了直接TTFS-SNN训练中的过度稀疏问题。我们进一步通过采样运行间变化使训练感知测量到的器件噪声,并通过考虑器件共享和多跳通信来细化系统级能耗模型。在GLUE数据集上,Otters++将平均分数提高到84.17\%,同时相比之前的尖峰Transformer基线保持明显的能效优势。这些结果表明,基于物理的TTFS计算在实际硬件效应下可以高效、可训练且鲁棒。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:55

# Otters++:一种基于首次脉冲时间的高能效光学脉冲变压器
来源:https://arxiv.org/html/2606.13016

张路一¹,毛嘉怡²,唐凯文¹,李凡凡²,潘刚⁴,罗涛⁵,朱博文²,刘倩慧¹,³,翁伟发¹

¹新加坡国立大学计算机科学系
²西湖大学工程学院
³山东大学人工智能学院
⁴浙江大学计算机科学与技术学院
⁵新加坡科技研究局

###### 摘要

脉冲神经网络(SNN)有望实现高能效推理,而首次脉冲时间(TTFS)编码尤其具有吸引力,因为每个神经元最多只发放一次脉冲。然而在实践中,这种优势往往被计算时间衰减项并将其与突触权重相乘的成本所削弱。我们通过将物理硬件中的一个“缺陷”——光电器件中的自然信号衰减——转化为TTFS的核心计算,从而解决了这个问题,并将其命名为Otters++。具体而言,我们利用定制In₂O₃光电突触的实测衰减直接实现TTFS的时间项,从而消除了显式数字衰减计算的需求。为了将这一思想扩展到Transformer模型,我们建立了Otters++与量化神经网络(QNN)之间的逐层功能等价性,并开发了一种混合训练方法:前向传播使用忠实于器件的SNN计算,反向传播则通过等效QNN路径使用直通估计器(STE)计算梯度,同时结合模型蒸馏。这避免了通过离散的首次脉冲事件进行微分,并减少了直接训练TTFS-SNN时的过度稀疏问题。此外,我们还通过采样运行间变异(run-to-run variation)使训练感知到实测器件噪声,并通过考虑器件共享和多跳通信来细化系统级能量模型。在GLUE数据集上,Otters++将平均分数提升至84.17%,同时相对于先前的脉冲Transformer基线保持了明显的能量优势。这些结果表明,基于物理的TTFS计算在实际硬件效应下可以实现高效、可训练且鲁棒的推理。

## I 引言

大型语言模型(LLM)在语言任务上取得了显著成功,但其计算和能耗成本仍是部署在边缘和资源受限平台上的主要障碍[16,9]。这一挑战促使人们对脉冲神经网络(SNN)的兴趣日益浓厚,其稀疏且事件驱动的计算为实现低功耗推理提供了潜在路径[34,26,19,18]。在不同的神经编码方案中,首次脉冲时间(TTFS)尤其具有吸引力,因为每个神经元在一个编码窗口内最多只发放一次脉冲,从而最大限度地提高了时间稀疏度,并在原则上减少了脉冲流量和数据移动[38,41,36]。然而,TTFS的实际效率往往被夸大。在传统的TTFS实现中,每个脉冲的到达时间仍然需要通过时间衰减函数(如指数或线性衰减)转换为数值,然后该数值与突触权重相乘。结果,稀疏脉冲编码的明显优势部分被额外的函数计算、乘法和内存访问所抵消[32,5]。这引发了一个根本性问题:TTFS能否在不承担数字时间解码成本的情况下保持其稀疏性优势?

在这项工作中,我们通过将时间计算从数字逻辑转移到器件物理中,回答了这个问题。我们不将光电器件的自然信号衰减视为不良的非理想特性[1],而是将其用作TTFS所需的时间计算。具体而言,定制In₂O₃光电突触的实测衰减响应直接实现了TTFS的时间项,从而无需在软件或数字硬件中显式计算衰减函数。这样,Otters++将物理硬件的“缺陷”重新用作计算原语,将时间调制和突触计算融合到同一物理过程中。虽然我们的光学硬件减轻了TTFS的计算开销,但第二个主要障碍依然存在:训练此类网络固有的困难,特别是对于像Transformer这样复杂的架构。直接优化TTFS-SNN极具挑战性,因为离散的首次脉冲事件和量化的发放时间使得梯度传播脆弱,尤其是在稀疏或缺失脉冲的情况下。这导致训练不稳定,以及直接优化SNN时常见的过度稀疏问题[32]。在我们的设置中,硬件引入的失配和变化进一步放大了这种训练困难[14]。当理想的发放时间落在可实现的器件响应采样点之间时,会出现物理采样误差;而运行间器件波动会扰动衰减曲线,降低鲁棒性。如果这些效应仅在训练后考虑,就会导致训练模型与部署的Otters++路径之间存在失配。为了解决这些挑战,我们建立了Otters++与无符号QNN之间的逐层功能等价性,并利用这种等价性开发了一种混合的SNN前向/QNN反向训练框架。前向传播保留了忠实于硬件的Otters++计算。在每个离散化的脉冲时间点,从实测上下响应曲线之间的区间中采样器件响应,从而使模型能够在训练时考虑实际的硬件不确定性。反向传播避免了通过稀疏且不连续的首次脉冲事件进行直接微分,而是通过等效名义QNN路径使用直通估计器(STE)计算梯度。因此,所提出的训练方案在前向计算中保持了物理保真度,实现了稳定的优化,并在测量器件变化下提高了鲁棒性。

除了训练之外,实际部署还需要系统级能量评估。以往对SNN效率的研究往往侧重于操作计数,而低估了数据移动和权重访问,这些在实际部署中可能占主导地位。因此,我们开发了一个明确捕获这些成本的能量模型,并使其适应Otters++的物理约束。此外,由于模拟读取能量取决于光电器件如何在神经元间分配和共享,我们将器件共享纳入能量模型。我们还将分析扩展到多跳通信,使得评估的能量能反映不同的通信距离。这些细化措施为基于物理的TTFS计算的能量优势提供了更现实的评估。

综合以上组件,我们构建了一个基于物理的TTFS框架,结合了光学时间计算、稳定的SNN训练、硬件变化鲁棒性和系统级能量评估。在GLUE上的评估显示,Otters++的平均分数比原始Otters基线提高了0.95个百分点,比其他基于SNN的Transformer基线提高了3.34–4.37个百分点。在相同的硬件模型下,其逐层能量比SpikingLM降低1.84倍,比Sorbet降低3.02倍,比SpikingBERT降低高达5.68倍[26,35,3]。本工作的主要贡献有三点:

1. 我们引入了一种基于物理的TTFS计算机制,将光电器件的自然光学衰减转化为核心时间计算。Otters++不是将衰减视为硬件非理想性,而是利用它来替代传统TTFS-SNN所需的高成本数字时间评估。
2. 我们为Otters++开发了一种混合的*SNN前向/QNN反向*训练框架。基于Otters++ TTFS-SNN与QNN之间的逐层功能等价性,前向传播保留了忠实于器件的TTFS计算,而反向传播通过等效QNN路径使用基于STE的梯度。我们进一步将实测的运行间器件变化纳入前向传播,使得在真实硬件不确定性下实现鲁棒训练。
3. 我们通过一个系统级模型细化了Otters++的能量评估,该模型考虑了计算、数据移动、内存访问、模拟读取成本、器件共享和多跳通信,从而提供了更现实的能量效率估计。

## II 背景

### II-A 光电突触

光电突触是一种神经形态器件,通过使用光信号调制其电导率来模拟生物突触功能。这些器件以其在神经形态计算中的极高能效潜力、更宽的带宽和更快的信号传输而著称,这些是相对于纯电子器件的关键优势[33,30]。最近的研究报告称其能耗已达到飞焦耳(fJ)/脉冲水平,与生物突触相当,且远低于传统CMOS神经元器件[23,31]。在各种实现中,氧化物薄膜晶体管(TFT)因其低泄漏电流和大面积柔性制造能力,被认为是光电突触的可行候选者。基于溶液的制造进一步提供了低成本、简化工艺和易于成分控制的优势。先前的报告表明,溶液加工的器件表现出均匀的性能、操作稳定性和低能耗[13]。基于这些进展,本工作采用成熟可靠的氧化物TFT平台来开发Otters++脉冲神经元。

### II-B 首次脉冲时间SNN

与基于速率的编码(使用脉冲频率表示信息)不同,TTFS编码利用单个脉冲的精确时间。其核心原理是:更强的输入刺激会导致神经元的膜电位上升更快,从而更早达到发放阈值。因此,信息被编码在给定时间窗口T内第一个且唯一脉冲的到达时间。这种方法最大化了时间稀疏度,并且效率极高,因为每个神经元最多发放一次[4]。

标准TTFS神经元的操作包括两个阶段。首先,神经元整合传入脉冲,更新其膜电位V_j^l(t)。其次,将此电位与发放阈值θ^l(t)进行比较。当电位首次达到或超过阈值时,在该时间步t生成一个脉冲:
s_j^l(t) = { 1, if V_j^l(t) ≥ θ^l(t); 0, otherwise } (1)

然而,SNN的异步特性,加上TTFS“尽可能早地发放”的目标,可能导致另一个问题。如果一个突触前神经元在突触后神经元已经发放后才发放,其脉冲对膜电位积累就会失效。为了解决这个问题,我们采用了一种动态发放阈值(DFT)模型,该模型强制执行同步的、逐层处理调度[32]。第l层中任何神经元的阈值在指定时间窗口外被设为无穷大,从而有效地确保第l层仅在时间T·l到T·(l+1)内活跃:
θ^l(t) = { θ_dynamic^l(t), if T·l ≤ t ≤ T·(l+1); +∞, otherwise } (2)

这种调度保证了前一层中的所有脉冲在当前层可能发放之前得到处理,从而保留了有效的因果关系。

### II-C 能量计算

为了实现全精度Transformer、量化Transformer和基于SNN的模型之间的公平比较,我们采用了统一的能量核算框架[36]。具体而言,我们将每一层的能量分解为两个主要部分:1)线性投影的能量,记为E_fc;2)注意力分数计算的能量,记为E_score。对于这两部分,总能量包括算术成本、内存访问成本、数据移动成本以及状态相关开销(如泄漏、阈值比较和输出写回)。我们考虑一种空间数据流架构,其中信息(例如脉冲包)通过片上网络(NoC)进行通信[36]。这种架构代表了现代专用硬件,如神经形态芯片Loihi[17]和数据流AI加速器Tenstorrent[28]及Sambanova[21]。我们认为控制逻辑能量可忽略不计,因为我们的分析侧重于此类开销最小化的专用加速器设计[36]。除非另有说明,B表示批大小,S表示序列长度,C_i和C_o表示线性层的输入和输出通道维度,h表示注意力头数,d_k表示每头键/查询维度。对于全精度和量化模型,γ∈[0,1]表示有效激活密度。对于SNN,T表示时间步数,s_r∈[0,1]表示平均脉冲发放率。模型中使用的硬件原语表示如下:E_MAC表示一次乘加操作,E_ACC表示一次累加操作,E_CMP表示一次比较操作,E_SUB表示一次减法操作,E_clamp表示一次钳位操作,E_leakage表示一次单位时间泄漏成本,E_weight^Read和E_kv^Read表示读取权重和键/值操作数的成本,E_kv^Write表示写入生成的键/值输出的成本,E_move^sparse表示移动一比特稀疏数据的成本。

**全精度BERT (FP32)**。对于全精度基线,每个有效输入激活贡献一次标准MAC操作,加上一次权重读取和相应的数据移动。由于激活以FP32表示,稀疏移动成本按32比特缩放。此外,每个输出...

相似文章