异构时间分辨率下脉冲神经网络的联邦学习

arXiv cs.LG 论文

摘要

本文提出了一种针对脉冲神经网络的联邦学习框架,解决了边缘设备上异构时间分辨率的挑战,能够在处理时间不匹配的同时实现无需共享原始数据的协作训练。

arXiv:2605.15355v1 公告类型: 新 摘要:脉冲神经网络(SNN)是受生物启发的节能模型,利用神经元之间稀疏的二进制脉冲通信,使其适用于资源受限的边缘设备。联邦学习使这些设备能够在不共享原始数据的情况下进行协作训练。在时间序列应用中,由于硬件和能源限制,边缘设备通常以不同的时间分辨率收集数据。这种时间异构性给联邦学习带来了根本性挑战:在一个时间分辨率下学习的参数不一定能直接迁移到另一个分辨率,可能导致简单的联邦平均失效。针对SNN以及更广泛地具有状态神经元的深度网络,我们提出了一种联邦学习框架来解决这种时间分辨率不匹配问题。我们研究了如何整合从不同时间分辨率数据中学到的神经元参数以及模型聚合。我们在两个SNN原生基准数据集(SHD和DVS-Gesture)上,在一系列分辨率异构场景下评估了所提框架。实验结果表明,我们提出的自适应方法能够显著恢复因时间不匹配导致的精度损失,从而使每个客户端能够在本地时间分辨率下训练,同时保持与全局模型的兼容性。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:40

# 异构时间分辨率下的脉冲神经网络联邦学习
来源:https://arxiv.org/html/2605.15355
Sanja Karilanova Subhrakanti Dey Ayça Özçelikkale 瑞典乌普萨拉大学电气工程系 \{Sanja.Karilanova, Subhrakanti.Dey, Ayca.Ozcelikkale\}@angstrom.uu.se

###### 摘要

脉冲神经网络(SNN)是受生物启发的节能模型,利用神经元之间基于稀疏二进制脉冲的通信,因此对资源受限的边缘设备具有吸引力。联邦学习使此类设备能够在不共享原始数据的情况下协同训练。在时间序列应用中,由于硬件和能量限制,边缘设备通常以不同的时间分辨率收集数据。这种时间异构性给联邦学习带来了根本性挑战:在一个时间分辨率下学习的参数不一定能直接迁移到另一个分辨率,这可能导致朴素联邦平均方法失效。针对SNN,更广泛地说,针对具有状态神经元的深度网络,我们提出了一种联邦学习框架来解决这种时间分辨率不匹配问题。我们研究了如何整合从不同时间分辨率数据中学习到的神经元参数以及模型聚合。我们在两个SNN原生基准数据集(SHD 和 DVS-Gesture)上,在一系列分辨率异构场景下评估了所提出的框架。我们的结果表明,所提出的适应方法可以显著恢复因时间不匹配而损失的准确率,从而使每个客户端能够在本地时间分辨率下进行训练,同时保持与全局模型的兼容性。

## 1 引言

联邦学习(FL)是一种分布式机器学习范式,其中多个实体(客户端)在中央服务器的协调下协同训练模型,同时将原始数据保留在本地。客户端不共享数据,而是传输本地模型参数,这些参数被聚合以改进全局模型 [Kairouz and McMahan (2021)](https://arxiv.org/html/2605.15355#bib.bib15)。该框架能够从分散的数据中学习,同时保护隐私并减少敏感信息的通信,已被广泛考虑用于边缘和分布式传感应用 [Aledhari et al. (2020)](https://arxiv.org/html/2605.15355#bib.bib14)。

许多联邦学习部署运行在能量消耗、内存和计算资源严格受限的边缘设备上。传统的信号处理和机器学习方法通常在冯·诺依曼架构上实现,这通常会产生显著的能量成本 [Sudhakar et al. (2023)](https://arxiv.org/html/2605.15355#bib.bib6)。受生物神经系统原理启发的神经形态计算已成为一种有前途的节能数据处理替代方案 [Rajendran et al. (2019)](https://arxiv.org/html/2605.15355#bib.bib7);[Davies et al. (2021)](https://arxiv.org/html/2605.15355#bib.bib8);[Yik and et. al. (2025)](https://arxiv.org/html/2605.15355#bib.bib9)。在这些系统中,信息使用脉冲(冲动)表示,通常随时间编码为二进制事件,从而实现适用于边缘设备的低延迟和节能计算。满足这些属性的最常用模型是脉冲神经网络(SNN)。在SNN中,具有状态的神经元以神经网络架构排列,并使用脉冲进行通信。

在传统数据采集系统中,时间分辨率由连续观测之间的采样间隔决定,例如视频的帧率或音频信号的采样率。然而,在实践中,由于硬件限制、能量约束、内存容量或通信带宽限制,不同的设备通常以不同的时间分辨率收集数据 [Dieter et al. (2005)](https://arxiv.org/html/2605.15355#bib.bib10);[ur Rehman et al. (2016)](https://arxiv.org/html/2605.15355#bib.bib11);[Chen et al. (2021)](https://arxiv.org/html/2605.15355#bib.bib12);[Park et al. (2021)](https://arxiv.org/html/2605.15355#bib.bib13)(参见图1(a) 的示例可视化)。这种时间分辨率的差异会影响全局模型的性能 [Zubic et al. (2024)](https://arxiv.org/html/2605.15355#bib.bib47);[Caccavella et al. (2024)](https://arxiv.org/html/2605.15355#bib.bib21);[Karilanova et al. (2026)](https://arxiv.org/html/2605.15355#bib.bib1)。

在本文中,我们提出了一种针对SNN(以及更广泛地,具有状态的深度网络)的联邦学习框架,该框架明确考虑了客户端数据时间分辨率的差异以及由此产生的客户端训练网络的时间对齐问题。我们的*时间分辨率自适应联邦学习(FedTA)*框架允许每个节点使用其自身时间分辨率的数据来本地更新共享模型,同时保持与全局模型的兼容性以进行聚合和评估。

参见说明 (a) 高级联邦学习设置
参见说明 (b) 所提出框架在单个设备上的概述

图1:联邦学习设置概述,以智能手表为例进行说明。
## 2 相关工作

#### 联邦学习

联邦学习通常依赖于参数聚合方法,例如联邦平均(FedAvg)[McMahan et al. (2017)](https://arxiv.org/html/2605.15355#bib.bib43),其中客户端执行本地训练,服务器将其本地模型参数聚合成全局模型。FedAvg 是 FL 算法的标准基线之一。客户端之间的异构性已从数据分布角度得到广泛研究 [Kim et al. (2023)](https://arxiv.org/html/2605.15355#bib.bib59);[Huang et al. (2026)](https://arxiv.org/html/2605.15355#bib.bib57);[Liu et al. (2023)](https://arxiv.org/html/2605.15355#bib.bib58);[Pei et al. (2024)](https://arxiv.org/html/2605.15355#bib.bib17),特别是类别不平衡 [Pei et al. (2024)](https://arxiv.org/html/2605.15355#bib.bib17)。然而,据我们所知,现有研究并未解决客户端之间和/或中心与客户端之间的时间分辨率不匹配问题。

#### 深度状态空间模型

深度状态空间模型(SSM)最近因其在建模序列和时间数据方面的强大性能而受到广泛关注 [Gu et al. (2022b](https://arxiv.org/html/2605.15355#bib.bib33), [a)](https://arxiv.org/html/2605.15355#bib.bib35);[Smith et al. (2023)](https://arxiv.org/html/2605.15355#bib.bib36)。一些工作研究了 SSM 在不同采样率下的行为:HiPPO-LegS 参数化 [Gu et al. (2020)](https://arxiv.org/html/2605.15355#bib.bib34) 针对尺度不变表示;[Schöne et al. (2024)](https://arxiv.org/html/2605.15355#bib.bib4) 调整了事件驱动输入的有效时间步长;[Zubic et al. (2024)](https://arxiv.org/html/2605.15355#bib.bib47) 为视觉任务提出了针对采样鲁棒 SSM 的分辨率感知训练。这些工作均未考虑联邦设置。与此同时,新兴的工作将 SSM 架构与脉冲神经表示相结合,实现了高效的时间处理,同时保持了与神经形态硬件的兼容性 [Zhang et al. (2026)](https://arxiv.org/html/2605.15355#bib.bib26);[Meyer et al. (2025)](https://arxiv.org/html/2605.15355#bib.bib27);[Stan and Rhodes (2024)](https://arxiv.org/html/2605.15355#bib.bib28);[Karilanova et al. (2025)](https://arxiv.org/html/2605.15355#bib.bib45)。

#### 脉冲神经网络

在 SNN 的背景下,FedAvg 已被探索,但主要关注客户端之间的类别不平衡 [Venkatesha et al. (2021)](https://arxiv.org/html/2605.15355#bib.bib38);[Wang et al. (2023)](https://arxiv.org/html/2605.15355#bib.bib52);[Liu et al. (2022)](https://arxiv.org/html/2605.15355#bib.bib51),而没有考虑客户端之间时间分辨率的差异。另外,一些工作已经在联邦设置之外解决了 SNN 中时间分辨率的变化 [Karilanova et al. (2026)](https://arxiv.org/html/2605.15355#bib.bib1);[Caccavella et al. (2024)](https://arxiv.org/html/2605.15355#bib.bib21);[He et al. (2020)](https://arxiv.org/html/2605.15355#bib.bib22)。利用 [Karilanova et al. (2026)](https://arxiv.org/html/2605.15355#bib.bib1) 中的理论基础,我们提出了一种联邦学习方法,可以在具有异构时间分辨率的客户端之间实现时间对齐。针对深度 SSM 和 SNN 的联邦学习仍然很大程度上未被探索,并且据我们所知,没有先前的工作处理过跨客户端的异构时间分辨率。我们的工作填补了这一空白。

## 3 问题陈述

我们考虑一个包含 K 个客户端的联邦学习设置,其中客户端 k 使用客户端特定的采样间隔(即时间分辨率)T_k 收集时间序列数据。每个客户端训练一个局部深度网络,中央服务器聚合局部模型并将更新后的模型发送回客户端。局部模型自然与时间分辨率相关联:以 T_k 训练的模型可能无法直接泛化到以 T_j ≠ T_k 采样的数据。因此,朴素的参数平均会混淆在不同时间分辨率下运行的模型,从而可能降低全局模型性能。本文关注的问题是:在联邦学习中,对于使用具有不同时间分辨率的数据训练得到的模型,应该如何进行模型平均的自适应?

我们在深度神经网络下研究这个问题,这些网络通过堆叠隐藏的状态层构建,每层包含 h 个具有动态参数 φ = {φ^(ℓi)} 的状态神经元,其中 ℓ 是层索引,i 是层内神经元索引,这些神经元通过密集的突触权重 W = {W^(ℓ)} 连接,后面跟着一个由参数 ψ = {ψ^(ℓ)} 参数化的归一化层(参见图2)。我们将完整的模型参数集表示为 θ = {φ, W, ψ}。每个神经元随时间保持一个内部状态,遵循一个可能非线性的离散时间状态空间模型(SSM),形式如下:

x[t+1] = f_φ(x[t], u[t]), (1a)
y[t] = h_φ(x[t]), (1b)

其中 u[t] 是神经元的输入,x[t] 是神经元的潜在状态,y[t] 是时间 t 的输出。为清晰起见,我们省略了层和神经元索引。这里,φ 代表神经元族的可训练参数,它表示 f_φ(·) 和 h_φ(·) 参数的组合列表。f_φ(·) 和 h_φ(·) 的具体参数形式取决于神经元模型(参见第4节)。在联邦平均设置下,我们考虑以下主要问题:在联邦学习中,对于使用具有不同时间分辨率的数据学习到的神经元参数 φ,应该如何进行调整以获得最佳准确率性能?

参见说明 图2:说明性网络架构
## 4 基于SSM的神经元模型

对于我们的深度神经网络模型,我们研究两个神经元模型族:LIF脉冲神经元,因其在脉冲神经网络及神经形态计算中的广泛使用而被选中;以及具有线性状态转移的SSM,作为非脉冲基线进行比较。对于每种神经元模型,我们考虑两个变体:

- •一个标准变体,直接训练动态参数。
- •一个 Δ 变体,采用指数-对数重参数化,将局部时间分辨率 T_k 映射到一个显式可训练的神经元时间分辨率参数 Δ。

给定网络中的所有神经元共享相同的模型。

### 4.1 泄漏积分点火(LIF)模型

前馈SNN中的离散时间泄漏积分点火(LIF)神经元定义如 [Bittar and Garner (2022)](https://arxiv.org/html/2605.15355#bib.bib46) 所述:

x[t+1] = α (x[t] - ϑ y[t]) + (1 - α) u[t], (2a)
y[t] = h_ϑ (x[t]), (2b)

其中所有变量都是标量值,u[t] ∈ R 是输入,x[t] ∈ R 是膜电位,y[t] ∈ {0, 1} 是由具有阈值 ϑ 的 Heaviside 阶跃函数 h_ϑ(·) 产生的输出脉冲,α ∈ (0,1) 控制膜电位的衰减。以下两个变体仅在 α 的参数化方式上不同:

标准–LIF:参数 α 直接作为自由标量参数进行训练。

Δ–LIF:在标准LIF神经元中,α 表示膜电位的衰减,通常参数化为 α = exp(-Δγ),其中 Δ 与时间步长的持续时间(即时间分辨率)相关,γ 是膜时间常数的倒数。遵循 [Fabre et al. (2026)](https://arxiv.org/html/2605.15355#bib.bib42) 的方法,我们将 α 表示为 α = exp( -e^{Δ_log} e^{γ_log} ),其中 Δ_log 和 γ_log 作为单独参数进行训练。

### 4.2 线性动态对角状态空间模型(LD-SSM)

具有线性状态转移动力学的时间不变离散时间SSM由 [Ljung (1987)](https://arxiv.org/html/2605.15355#bib.bib5) 给出:

x[t+1] = A x[t] + B u[t], (3a)
y[t] = h( C x[t] ) (3b)

其中状态转移矩阵 A ∈ C^{N×N},输入矩阵 B ∈ C^{N×n_in},输出矩阵 C ∈ C^{n_out×N}。神经元输出通过应用一个连续值激活函数 h(·) 获得。遵循 [Gu et al. (2022b)](https://arxiv.org/html/2605.15355#bib.bib33),我们考虑状态转移矩阵为对角矩阵的情况。

标准–SSM:所有三个矩阵 A、B、C 都直接进行训练。

Δ–SSM:受 [Gu et al. (2022b)](https://arxiv.org/html/2605.15355#bib.bib33) 代码实现中参数化的启发,A 的对角线元素表示为:
A = exp( -e^{Δ_log} ( e^{A_ℜ,log} - j A_ℑ ) ),
其中 A_ℜ,log, A_ℑ ∈ R^{N×N} 是对角矩阵,Δ_log ∈ R 是标量。输出矩阵 C 使用可训练的 Ĉ 获得,并按比例缩放为 C = Ĉ · (e^A - I) A_c^{-1},其中 A_c = e^{A_ℜ,log} - j A_ℑ。参数 A_ℜ,log, A_ℑ 和 Δ_log 被训练,而不是 A 的条目。

相似文章

基于时间增强符号图神经网络的动态链接预测

arXiv cs.LG

本文提出了一种面向符号图神经网络的模块化时间增强框架,通过历史上下文集成模块(HCIM)结合LSTM和多头时间注意力机制整合历史上下文,在真实世界的时间符号网络上进行动态链接预测时取得了持续改进。

FedQHD:闭式函数空间联邦强化学习

arXiv cs.LG

本文提出FedQHD,一种新颖的联邦Q学习方法,使用超维随机特征状态编码器和线性读出器实现闭式函数空间聚合,解决了异构客户端编码器导致的联邦差距。