QSplitFL：基于能力感知的深度Q学习在分割联邦学习中的最优分割点选择

arXiv cs.LG 2026/06/10 04:00 论文

摘要

QSplitFL提出了一种基于DQN的框架，用于在分割联邦学习中选择最优分割点，利用客户端硬件指标适应异构设备。实验表明，在多个数据集和架构上，该方法提高了收敛速度和准确率。

arXiv:2606.09869v1 公告类型：新摘要：联邦学习（FL）与分割学习（SL）相结合是一种隐私保护范式，能够在资源受限的设备上训练深度神经网络（DNN），同时降低总体训练成本。然而，确定最优分割点（即模型划分的层）仍然是一个关键挑战，尤其是在客户端具有异构硬件能力的情况下。固定分割点可能会使弱设备过载，并增加通信和服务器负载，从而减慢收敛速度并降低稳定性。本文介绍了 QSplitFL，一种新颖的基于能力感知的深度 Q 网络（DQN）框架，用于在基于分割学习的联邦学习（SFL）环境中进行最优分割点选择。与依赖高维模型权重表示的现有方法不同，QSplitFL 采用直接从客户端硬件指标（包括 CPU 利用率、内存、电池电量和网络延迟）导出的轻量级状态表示。所提出的框架包含一个衰减损失下降奖励函数，优先考虑早期收敛，以及一个基于委员会的 DQN 架构，采用多数投票来减轻奖励黑客攻击。在 MNIST、Fashion-MNIST、CIFAR-10 和 CIFAR-100 数据集上，使用 CNN、ResNet50、MobileNetV4 和 ConvNeXt 架构进行的大量实验表明，与现有方法相比，我们的方法实现了更好的收敛和更高的准确率，同时有效适应了异构设备资源。源代码可在 https://github.com/AIPO-Lab/QSplitFL 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:14

# QSplitFL：在分割联邦学习中进行最优分割点选择的能力感知深度Q学习
Source: https://arxiv.org/html/2606.09869  
11institutetext:Department of Computer Science, Kennesaw State University, Marietta, GA, 30060 USA  
11email:nshadin@students\.kennesaw\.edu, xzhang48@kennesaw\.edu  
22institutetext:Department of Computer Science, San Francisco State University, San Francisco, CA, 94132 USA  
22email:jingyiwang@sfsu\.edu  
33institutetext:Department of Electrical and Computer Engineering, University of Houston, Houston, TX, 77204 USA  
33email:mpan2@uh\.edu  

###### 摘要  
联邦学习（FL）与分割学习（SL）相结合是一种隐私保护范式，能够在资源受限的设备上训练深度神经网络（DNN），同时降低整体训练成本。然而，确定最优分割点（即模型被分割的层）仍然是一个关键挑战，尤其是当客户端具有异构硬件能力时。固定的分割点可能导致弱设备过载，增加通信和服务器负载，从而减慢收敛速度并降低稳定性。本文介绍了QSplitFL，一种新颖的基于能力感知的深度Q网络（DQN）框架，用于在基于分割学习的联邦学习（SFL）环境中进行最优分割点选择。与依赖高维模型权重表示的现有方法不同，QSplitFL采用从客户端硬件指标直接导出的轻量级状态表示，包括CPU利用率、内存、电池电量和网络延迟。所提出的框架包含一个衰减的损失下降奖励函数，优先考虑早期收敛，以及一个基于委员会的DQN架构，通过多数投票来缓解奖励破解。在MNIST、Fashion-MNIST、CIFAR-10和CIFAR-100数据集上，使用CNN、ResNet50、MobileNetV4和ConvNeXt架构进行的大量实验表明，我们的方法相比现有方法实现了更好的收敛和更高的准确率，同时有效适应异构设备资源。源代码公开于 https://github.com/AIPO-Lab/QSplitFL。

## 1 引言  
边缘设备的快速普及，以及人们对数据隐私和安全性的日益关注，推动了联邦学习（FL）的发展，它能够在无需集中化敏感原始数据的情况下进行协作模型训练[17 (https://arxiv.org/html/2606.09869#bib.bib77)]。FL在物联网（IoT）、医疗物联网（IoMT）和边缘计算环境中尤为重要，这些环境中数据自然分布在智能手机、IoT传感器以及部署在偏远和资源有限环境中的医疗设备上[13 (https://arxiv.org/html/2606.09869#bib.bib52), 2 (https://arxiv.org/html/2606.09869#bib.bib30)]。尽管有这些优势，FL依赖于客户端计算，并假设参与客户端能够在本地训练完整的神经网络，但这在资源受限客户端设备的实际场景中可能失败[27 (https://arxiv.org/html/2606.09869#bib.bib49)]。考虑一个实际的医疗场景：乡村医院和社区卫生中心希望利用分布在多个设施中的患者数据协作开发和训练用于特定疾病检测的深度学习模型[13 (https://arxiv.org/html/2606.09869#bib.bib52)]。虽然协作对于获得能够泛化到不同患者群体的鲁棒模型至关重要，但这些设施通常运行在有限的计算基础设施上，包括旧版硬件、受限的电源供应以及不可靠的网络连接[4 (https://arxiv.org/html/2606.09869#bib.bib91)]。对于此类环境，本地训练深度神经网络（DNN）的计算成本成为主要瓶颈，限制了传统FL的适用性。为了解决这一限制，分割学习（SL）提供了一种有吸引力的替代方案，它将模型在客户端和服务器之间进行分割，使资源受限的设备仅执行模型的初始几层[10 (https://arxiv.org/html/2606.09869#bib.bib47)]。产生的中级激活（称为压碎数据）随后传输给服务器，由服务器完成剩余的正向和反向传播。SL减少了客户端计算量，同时将原始数据保留在设备上。基于这一思想，基于分割学习的联邦学习（SFL）结合了SL的计算效率和FL的隐私保护及可扩展性[27 (https://arxiv.org/html/2606.09869#bib.bib49)]。尽管SFL具有这些优势，它引入了一个关键的优化挑战，即确定最优分割点——也就是神经网络在客户端和服务器之间被分割的特定层[20 (https://arxiv.org/html/2606.09869#bib.bib46)]。分割点决定了客户端和服务器之间计算和通信的平衡[27 (https://arxiv.org/html/2606.09869#bib.bib49)]。当分割较浅时，客户端只执行网络的一小部分，减少了客户端计算，但增加了发送给服务器的中间激活的大小，并增加了服务器端处理量。另一方面，当分割较深时，更多层运行在客户端上，减少了激活传输量，但可能使资源受限的设备过载[21 (https://arxiv.org/html/2606.09869#bib.bib43)]。因此，在实践中，分割点不能固定，因为客户端能力会随时间变化且设备间差异很大，而且能力可能由于电池消耗、竞争应用、网络拥塞以及客户端集群内的硬件异构性而在联邦轮次间波动[6 (https://arxiv.org/html/2606.09869#bib.bib39)]。在实际部署中，一些设备可以支持更深的分割，而其他设备则不能[31 (https://arxiv.org/html/2606.09869#bib.bib38)]。这种背景促使我们研究自适应的、能力感知的分割点选择。现有的分割点选择方法主要使用启发式规则、穷举搜索或依赖从模型权重导出的高维状态表示的强化学习[24 (https://arxiv.org/html/2606.09869#bib.bib32)]。这些方法往往引入非平凡的开销、缓慢的适应性和有限的可解释性。从模型权重构建状态的方法通常需要降维，通常通过主成分分析（PCA）进行[30 (https://arxiv.org/html/2606.09869#bib.bib40)]。这一步骤为收集权重和计算投影增加了大量复杂性，在资源受限的设备部署中难以证明其合理性。为了缓解这些问题，我们提出了QSplitFL，一种基于能力感知的强化学习（RL）深度Q网络框架，用于在SFL设置中动态选择分割点。在这里，我们用基于客户端能力指标的轻量级、可解释的状态表示替换了基于权重的状态表示。我们将分割选择形式化为一个马尔可夫决策过程[30 (https://arxiv.org/html/2606.09869#bib.bib40)]，其中状态使用归一化的CPU可用性、内存利用率、电池电量和网络延迟指标，以及从客户端间能力分布导出的异质性指标来总结聚合的集群能力。动作从可行的层范围中选择一个分割层，例如从网络中间层到最后一个可执行层，这与设备和医院计算能力差异很大的实际部署相一致。农村地区的资源受限站点可能只执行模型的一小部分，而较大的医院可以支持更深的计算。这种异构性使得单一的固定分割点无效，并促使了一种机制，能够根据每个参与客户端集群的能力调整分割深度。奖励遵循衰减的损失下降目标，其中奖励函数对早期的改进赋予更高权重以加速初始收敛。QSplitFL使用了Wang等人描述的标准DQN稳定技术[30 (https://arxiv.org/html/2606.09869#bib.bib40)]。这包括经验回放，其中有限容量的缓冲区存储先前的转换以解相关梯度更新，并允许模型重用有信息量的经验。通过目标网络（定期与主网络同步）进一步维持时序差分（TD）学习的稳定性。此外，该框架采用基于委员会的动作选择来缓解奖励破解问题，从而确保更鲁棒、更可靠的动作选择决策[32 (https://arxiv.org/html/2606.09869#bib.bib34)]。本文的主要贡献总结如下：  
- • **能力感知状态**：一种基于归一化客户端能力指标（CPU、内存、电池、网络）和集群异质性的轻量级、可解释的状态表示。  
- • **衰减的损失下降奖励**：一种指数衰减的损失下降奖励，优先考虑早期轮次的改进以加速分割点发现。  
- • **基于委员会的DQN**：一种基于委员会的DQN，使用多个CNN模型作为单个委员会成员对动作选择进行投票，以提高鲁棒性并减少奖励破解。  
- • **首个基于DQN的自适应分割点选择**：据我们所知，QSplitFL是首个将深度Q学习应用于SFL中最优分割点选择的工作。  
- • **全面评估**：在MNIST、Fashion-MNIST、CIFAR-10和CIFAR-100数据集上，使用CNN、ResNet50、MobileNetV4和ConvNeXt架构，在5、10、100和200个客户端上进行了大量实验，证明了我们方法的可扩展性和有效性。  

## 2 相关工作  
SFL结合了SL的计算减少和FL的协作可扩展性[27 (https://arxiv.org/html/2606.09869#bib.bib49), 12 (https://arxiv.org/html/2606.09869#bib.bib48)]。在SFL中，客户端与服务器执行SL，同时客户端更新以联邦方式定期聚合。这种混合设计使得资源受限设备能够参与本地训练，同时允许服务器端并行处理多个客户端。近期的SFL研究强调了优化和资源管理。Fan等人[9 (https://arxiv.org/html/2606.09869#bib.bib44)]提出了一种用于云-边-端协作SFL的多智能体深度强化学习框架，可以联合优化分割、资源分配和客户端调度。Yu等人[35 (https://arxiv.org/html/2606.09869#bib.bib45)]为车载环境引入了U形SFL，并使用深度强化学习在移动性约束下处理动态资源分配和分割选择。ESFL利用针对系统约束定制的优化技术，为异构无线设备制定工作负载和服务器资源分配[37 (https://arxiv.org/html/2606.09869#bib.bib42)]。隐私和完整性方面也得到研究。例如，扰动压碎数据的差分隐私机制可以减少标签推断攻击的成功率[33 (https://arxiv.org/html/2606.09869#bib.bib12)]。IV-FED使用可信执行环境支持医疗物联网场景中的训练完整性[15 (https://arxiv.org/html/2606.09869#bib.bib23)]。强化学习（RL），特别是深度强化学习，已被应用于分布式机器学习系统中的决策问题[14 (https://arxiv.org/html/2606.09869#bib.bib21)]。深度Q网络（DQN）广泛用于调度、分配和分割任务中常见的离散动作空间[30 (https://arxiv.org/html/2606.09869#bib.bib40)]。在分布式学习中，RL已被用于分割点选择、客户端选择和任务卸载。面向目标的DNN分割方法使用RL在资源约束和精度目标下控制分割决策[5 (https://arxiv.org/html/2606.09869#bib.bib18)]。早期的方法将Q学习应用于基于PCA压缩的权重表示的分割决策[24 (https://arxiv.org/html/2606.09869#bib.bib32)]。RL还被用于在异构IoT FL设置中选择客户端，以平衡收敛和资源使用[34 (https://arxiv.org/html/2606.09869#bib.bib19)]，并优化边缘和云资源之间的任务卸载[36 (https://arxiv.org/html/2606.09869#bib.bib17)]。对经验回放的改进，如优先经验回放和多样性感知回放，进一步提高了深度强化学习训练中的样本效率[25 (https://arxiv.org/html/2606.09869#bib.bib14)]。  
**研究差距与我们的贡献**：现有的基于RL的方法使用高维模型权重与PCA压缩表示状态[24 (https://arxiv.org/html/2606.09869#bib.bib32)]，这引入了大量开销并限制了可扩展性。它们也无法表示动态的客户端能力变化，使得分割点选择决策适应缓慢。此外，单智能体决策容易受到奖励破解的影响，即策略利用奖励信号的弱点而非提高真正的训练性能[32 (https://arxiv.org/html/2606.09869#bib.bib34)]。最后，将所有轮次平等对待的奖励公式可能忽略早期轮次决策对于塑造后期收敛行为的重要性。QSplitFL通过轻量级的能力感知状态、基于委员会的DQN与多数投票，以及衰减的损失下降奖励，解决了这些差距，实现了资源受限SFL环境中的自适应分割点选择。  

## 3 系统模型  
参见图注  
图1：QSplitFL工作流架构。  
(1)客户端侧：客户端提供硬件指标，接收分割层 \(\ell\)，并通过层1到 \(\ell\) 运行前向传播，产生压碎数据 \(A_k\)。  
(2)服务器侧：服务器通过层 \(\ell+1\) 到 \(L\) 完成训练，并将梯度返回给客户端。  
(3)聚合：客户端更新通过FedAvg聚合；基于损失函数计算奖励 \(r_t\)。  
(4)RL控制器：一个由MLP模型组成的委员会根据客户端能力对最优分割层进行投票。  

图1 (https://arxiv.org/html/2606.09869#S3.F1) 展示了QSplitFL的工作流架构。在**客户端侧处理**中，每个客户端以硬件分析器（步骤1）开始，测量四个实时指标：CPU利用率、电池电量、内存可用性和网络延迟。这些原始读数被转换为归一化的能力指标 \(C_i\)（步骤2），然后传递给状态聚合器（步骤3），该聚合器构建一个六维的神经状态向量 \(s_t\)（步骤3a），总结集群的整体能力和异质性。在从服务器接收到选定的分割层 \(\ell\) 和具有 \(L\) 层及权重 \(W_t\) 的全局模型后（步骤5），每个客户端加载其客户端子模型（层1到 \(\ell\)，步骤6）并运行前向传播（步骤7），产生压碎数据 \(A_\ell\)，并将其传输给服务器。在**服务器侧处理**中，在块A内，服务器接收压碎数据并通过服务器子模型（覆盖层 \(\ell+1\) 到 \(L\)，步骤8）执行服务器前向传播（步骤8a）。服务器通过比较预测与真实标签计算 \(\mathcal{L}(\hat{y}, Y)\)（步骤8b）。服务器反向传播（步骤9）计算梯度 \(\nabla A_\ell\)，并发送回客户端。每个客户端随后执行其客户端反向传播（步骤10），计算本地权重更新 \(\Delta W\)（步骤11），并将它们发送给聚合器……

QSplitFL：基于能力感知的深度Q学习在分割联邦学习中的最优分割点选择

相似文章

FedQHD：闭式函数空间联邦强化学习

面向异构优化器的无服务器半去中心化联邦学习

在量子退火器上通过基于QUBO的客户端选择的拜占庭鲁棒联邦学习

M$^2$FedAQI: 用于异构边缘设备空气质量预测的多模态联邦学习

准确且资源高效的联邦持续学习

提交意见反馈