FedSPC:个性化联邦学习中的共享参数校正
摘要
提出FedSPC,一种面向个性化联邦学习的模块化校正方法,仅对共享参数应用控制变量校正,在CIFAR-100和Tiny-ImageNet上提升了多种PFL方法的性能。
arXiv:2606.13748v1 公告类型:新
摘要:个性化联邦学习(PFL)是联邦学习中应对统计异质性并实现客户端特定自适应的重要方法之一。许多PFL方法将模型拆分为共享参数和个性化参数,并在每个客户端上联合训练。然而,这带来了一个优化问题:共享参数由优化不同本地目标的客户端更新,可能导致共享更新不一致,从而削弱共享表示。为解决此问题,我们提出了联邦共享参数校正(FedSPC),一种模块化的PFL校正方法。FedSPC仅对给定PFL方法的共享参数应用控制变量校正,而保持个性化参数不变。它可以集成到三种常见的PFL设置中:共享特征提取器、共享分类器以及带有局部正则化的完全共享模型。在CIFAR-100和Tiny-ImageNet上使用ViT、ResNet-34和VGG-11的实验表明,FedSPC在包括FedPer、FedRep、FedBABU、LG-FedAvg和Ditto在内的代表性PFL方法上均提升了性能。
查看缓存全文
缓存时间: 2026/06/15 09:07
# FedSPC:面向个性化联邦学习的共享参数校正
来源:https://arxiv.org/html/2606.13748
Christian Prehofer1,3Yunfei Xu2Toru Hirano21电装汽车德国有限公司,德国 2电装国际美国公司,美国 3慕尼黑工业大学,德国
###### 摘要
个性化联邦学习(PFL)是联邦学习中应对统计异质性并实现客户端特定适应的重要方法之一。许多PFL方法将模型划分为共享参数和个性化参数,并在每个客户端上联合训练。然而,这带来一个优化问题:共享参数由优化不同局部目标的客户端更新,可能导致共享更新不一致,削弱共享表征。
为解决此问题,我们提出联邦共享参数校正(FedSPC),一种针对PFL的模块化校正方法。FedSPC仅对给定PFL方法中的共享参数应用控制变量校正,而保持个性化参数不变。它可以集成到三种常见的PFL设置中:共享特征提取器、共享分类器以及带局部正则化的完全共享模型。在CIFAR-100和Tiny-ImageNet上使用ViT、ResNet-34和VGG-11的实验表明,FedSPC提升了包括FedPer、FedRep、FedBABU、LG-FedAvg和Ditto在内的代表性PFL方法的性能。
## 1 引言
联邦学习(FL)使多个客户端能够在不共享原始数据的情况下协作训练模型[McMahan等人 (2017)](https://arxiv.org/html/2606.13748#bib.bib1)。每个客户端将数据保留在本地,并将模型更新发送至中央服务器进行聚合,形成全局模型。FL面临的一个主要挑战是统计异质性,它来源于客户端数据的差异,例如标签分布、特征统计、样本大小以及其他与数据相关的属性[Li等人 (2021c)](https://arxiv.org/html/2606.13748#bib.bib18)。
一类工作通过在训练过程中校正客户端漂移来处理异质性[Li等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib8); [Acar等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib10); [Karimireddy等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib9); [Li等人 (2022)](https://arxiv.org/html/2606.13748#bib.bib39)。这些方法降低了异质性的影响,但主要针对标准FL,即所有客户端优化单个全局模型。在客户端间存在强烈差异的场景中,单一的全局模型可能无法对所有客户端都表现良好[Arivazhagan等人 (2019)](https://arxiv.org/html/2606.13748#bib.bib2); [Collins等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib4)。
个性化联邦学习(PFL)通过允许每个客户端使模型适应本地数据,同时仍从协作中受益,解决了这一局限性[Arivazhagan等人 (2019)](https://arxiv.org/html/2606.13748#bib.bib2); [Collins等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib4); [Li等人 (2021b)](https://arxiv.org/html/2606.13748#bib.bib3); [Oh等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib6); [Chen和Chao (2021)](https://arxiv.org/html/2606.13748#bib.bib7); [Liang等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib17)。一种常见方法是将模型分为共享参数和个性化参数:共享参数在各客户端间聚合,而个性化参数保持本地[Arivazhagan等人 (2019)](https://arxiv.org/html/2606.13748#bib.bib2); [Collins等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib4); [Liang等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib17); [Li等人 (2021b)](https://arxiv.org/html/2606.13748#bib.bib3); [Oh等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib6)。
这种PFL方法尤其适用于深度学习骨干网络,其中大型共享组件期望捕获可迁移的视觉结构。诸如Vision Transformers (ViTs)、Residual Networks (ResNets)和VGG网络等架构通常被用作视觉表征学习的特征提取器[Dosovitskiy等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib37); [He等人 (2016)](https://arxiv.org/html/2606.13748#bib.bib35); [Simonyan和Zisserman (2014)](https://arxiv.org/html/2606.13748#bib.bib36)。最近的自监督方法,包括MoCo、DINOv3和I-JEPA,进一步表明高容量视觉骨干网络可以从大规模数据中学习可迁移的表征[He等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib42); [Siméoni等人 (2025)](https://arxiv.org/html/2606.13748#bib.bib43); [Assran等人 (2023)](https://arxiv.org/html/2606.13748#bib.bib38)。
在PFL中,共享参数学习各客户端间的共同特征,而局部参数则适应每个客户端的数据[Arivazhagan等人 (2019)](https://arxiv.org/html/2606.13748#bib.bib2)。然而,由于共享组件是通过客户端特定的局部目标进行训练的,其更新可能朝向客户端特定的方向而非共同的全局目标,这导致了本文要解决的共享参数优化问题。
参见图注 图1:PFL中共享参数校正的简化直观动机。该图展示了一个具有两个客户端且本地数据分布不同的PFL设置。每个客户端在局部优化过程中联合训练共享参数和个性化参数。共享参数以蓝色显示,并发送至服务器进行聚合,而个性化参数以红色或绿色显示,并保持本地。(a) PFL中的共享参数漂移:每个客户端在本地训练后产生一个共享参数更新。由于客户端在不同数据上使用不同的个性化参数进行训练,这些共享更新在聚合前可能指向不同方向。(b) FedSPC仅对共享参数的优化应用校正。在每个校正框中,白色箭头表示未校正的共享更新方向,黄色箭头表示估计的漂移校正方向,黑色箭头表示校正后的共享更新方向。由此产生的共享更新被发送至服务器并聚合,形成更稳定的共享表征,而个性化参数保持本地,不被校正。
### 1.1 问题陈述
我们在图1中阐述了动机。在PFL中,每个客户端训练一个包含共享参数和个性化参数的模型。然而,不同的PFL方法对这种分解的定义不同。在本工作中,我们考虑三种常见设置:(i) 共享特征提取器搭配个性化分类器[Arivazhagan等人 (2019)](https://arxiv.org/html/2606.13748#bib.bib2); [Collins等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib4); [Oh等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib6),(ii) 共享分类器搭配本地特征提取器[Liang等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib17),以及 (iii) 通过正则化实现的完全共享全局模型搭配个性化本地模型[Li等人 (2021b)](https://arxiv.org/html/2606.13748#bib.bib3)。
在这些设置中,只有共享参数在服务器端进行通信和聚合,而个性化参数保持本地或单独优化。然而,在本地训练期间,共享参数是在客户端特定的数据分布和个性化机制下进行优化的。因此,共享更新可能反映客户端特定的目标,而不仅仅是各客户端间的共同信息,导致共享组件的优化方向不一致。聚合后,这可能会削弱共享参数的优化,尤其是在共享组件通常承担大部分表征学习的深度模型中[Dosovitskiy等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib37); [He等人 (2016)](https://arxiv.org/html/2606.13748#bib.bib35)。
现有的校正方法,如SCAFFOLD和PVR[Karimireddy等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib9); [Li等人 (2022)](https://arxiv.org/html/2606.13748#bib.bib39),是为标准FL设计的,其中校正应用于完整模型的更新。然而,在PFL中,校正目标因方法而异:可能是特征提取器、分类器,或是与个性化本地模型一起使用的全局模型。因此,如何在不同类型的PFL方法中一致地应用校正而不修改个性化参数,在很大程度上仍未得到解决。
### 1.2 我们的方法
为解决此问题,我们提出联邦共享参数校正(FedSPC),一种用于PFL的模块化校正方法。FedSPC建立在SCAFFOLD和PVR的控制变量校正思想之上[Karimireddy等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib9); [Li等人 (2022)](https://arxiv.org/html/2606.13748#bib.bib39),但通过仅对底层PFL方法中共享的参数应用校正,使其适应PFL。
关键思想是首先识别给定PFL方法的共享参数块,然后仅校正其更新。个性化参数保持本地,不被校正或聚合。因此,FedSPC不改变原始方法的个性化策略,而是改进共享组件的优化。
这使得FedSPC可适用于不同的PFL分解。对于具有共享特征提取器的方法,FedSPC校正特征提取器的更新。对于具有共享分类器的方法,它校正分类器的更新。对于具有完全共享全局模型和局部正则化的方法,它校正全局模型的更新,同时保持个性化本地模型不变。
### 1.3 贡献
我们的贡献有三个方面:
1. 1.我们提出FedSPC,一种通过校正共享参数更新来减少PFL中客户端特定局部目标影响的方法,同时保持个性化参数不变。
2. 2.我们引入FedSPC作为模块化方法,可应用于三种常见的PFL设置:共享特征提取器、共享分类器以及带局部自适应的完全共享模型。
3. 3.我们证明FedSPC提升了代表性PFL方法的性能,包括FedPer、FedRep、FedBABU、LG-FedAvg和Ditto,在CIFAR-100和Tiny-ImageNet上,跨多种架构(ViT、ResNet-34和VGG-11)以及不同程度的类别分布异质性下。
## 2 相关工作
我们回顾了PFL、表征对齐、标准FL优化、个性化聚合以及多任务学习方面的先前工作。
#### 个性化联邦学习:
PFL通过将局部自适应与共享结构相结合来处理客户端异质性。一种常见策略是模型分解:FedPer[Arivazhagan等人 (2019)](https://arxiv.org/html/2606.13748#bib.bib2)和FedRep[Collins等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib4)共享表征与局部预测器,FedRoD[Chen和Chao (2021)](https://arxiv.org/html/2606.13748#bib.bib7)分离通用和个性化预测器,LG-FedAvg[Liang等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib17)共享分类器同时保持特征提取器本地。相关方法个性化选择的组件或自适应过程,包括FedBN[Li等人 (2021c)](https://arxiv.org/html/2606.13748#bib.bib18)、pFedLA[Ma等人 (2022)](https://arxiv.org/html/2606.13748#bib.bib19)、FedLAMA[Lee等人 (2023)](https://arxiv.org/html/2606.13748#bib.bib20)和FedBABU[Oh等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib6)。其他方法通过目标、元学习、双层优化或插值引入个性化,包括Ditto[Li等人 (2021b)](https://arxiv.org/html/2606.13748#bib.bib3)、Per-FedAvg[Fallah等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib32)、pFedMe[T Dinh等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib22)和APFL[Deng等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib24)。总体而言,PFL方法主要区别在于哪些参数被共享、哪些保持本地,以及本地模型如何与全局模型关联。
#### 表征对齐与共识:
另一组方法通过鼓励客户端学习更一致的表示来减少异质性。FedPAC[Xu等人 (2023)](https://arxiv.org/html/2606.13748#bib.bib11)和FedReco[Zhu和Mazumdar (2023)](https://arxiv.org/html/2606.13748#bib.bib12)使用原型或共识目标对齐客户端特征,而FedProto[Tan等人 (2022)](https://arxiv.org/html/2606.13748#bib.bib30)交换类级原型而非模型参数。对比方法如MOON[Li等人 (2021a)](https://arxiv.org/html/2606.13748#bib.bib29)在训练过程中鼓励局部和全局表示之间的一致性。这些方法引入辅助目标或共享的表征级信息来减少客户端间的发散。
#### 联邦优化中的异质性:
数据异质性是FL的核心挑战。几种方法通过修改局部更新来稳定训练。FedProx[Li等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib8)添加近端项以限制与全局模型的偏差,FedDyn[Acar等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib10)动态对齐局部和全局目标,控制变量方法如SCAFFOLD[Karimireddy等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib9)和PVR减少更新方差[Li等人 (2022)](https://arxiv.org/html/2606.13748#bib.bib39)。这些方法主要针对标准FL开发,即所有客户端优化单个共享模型。然而,它们在PFL中的应用仍然有限,因为在PFL中共享更新进一步受到个性化影响,这激发了对针对性校正方法的需求。
#### 个性化聚合与客户端结构:
另一条独立的工作线通过改变跨客户端的信息聚合方式来处理异质性。FedFOMO[Zhang等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib25)、FedALA[Zhang等人 (2023)](https://arxiv.org/html/2606.13748#bib.bib23)和FedAMP[Huang等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib33)学习客户端特定的聚合权重,使每个客户端能更多地从相关客户端受益。基于聚类的方法如IFCA[Ghosh等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib26)和CFL[Sattler等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib27)将客户端划分为组,并为不同客户端簇训练单独的模型。FedEM[Marfoq等人 (2021)](https://arxiv.org/html/2606.13748#bib.bib28)使用混合模型对客户端群体进行建模。这些方法调整聚合结构以反映客户端间的关系。
#### 梯度冲突与多任务学习:
异质性下的FL也可以被视为多任务优化。PCGrad[Yu等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib14)通过投影减少梯度冲突,FedMGDA+[Hu等人 (2020)](https://arxiv.org/html/2606.13748#bib.bib15)将FL形式化为多目标优化,MOCHA[Smith等人 (2017)](https://arxiv.org/html/2606.13748#bib.bib16)为联邦多任务学习提供了通用框架。这些方法研究了如何处理跨任务的竞争目标,并为联邦系统中的异质性提供了更广泛的优化视角。
参见图注 图2:FedSPC概述。FedSPC仅校正PFL中的共享参数优化,同时保持个性化参数本地。该过程包括四个步骤:(1) 广播:服务器发送共享参数θst\\theta\_\{s\相似文章
FSPO:少样本合成偏好优化实现面向真实用户的个性化
FSPO提出了一种用于大语言模型个性化的少样本偏好优化算法,该算法将奖励建模重新定义为元学习,使模型能够从有限的用户偏好中快速推断出个性化的奖励函数。该方法通过精心构建合成偏好数据集,在合成用户上实现了87%的个性化性能,在真实用户上实现了70%的个性化性能。
准确且资源高效的联邦持续学习
FedRAN是一种资源感知的分析型联邦持续学习框架,用紧凑的随机特征统计量替代基于梯度的更新,在显著降低通信与计算成本的同时实现高精度。
ShadowPEFT:面向参数高效微调的阴影网络
ShadowPEFT 提出一种集中式参数高效微调方法,通过深度共享的阴影模块细化 Transformer 层表示,在可训练参数量与 LoRA/DoRA 相当的情况下实现同等甚至更优的性能。
关于基于推送的异步联邦学习:一种偏差纠正聚合方法
本文提出了PushCen-ADFL,一种通信高效的异步去中心化联邦学习框架,它使用基于质心的消息传递和偏差纠正,在异构条件下提高准确性并降低通信开销。
联邦学习
本文解释了联邦学习作为一种保护隐私的机器学习技术的概念,该技术通过在本地设备而非中央服务器上训练模型来实现。文章详细描述了加密参数更新和聚合的过程,旨在降低数据泄露风险,同时保持模型性能。