同质与异构数据分布下联邦学习聚合策略的比较研究

arXiv cs.LG 论文

摘要

本文对各种联邦学习聚合策略进行了全面的实验比较,分析了它们在homogeneous和heterogeneous数据分布下的性能和效率。

arXiv:2605.11010v1 公告类型:新论文 摘要:联邦学习已成为分布式环境中协作机器学习的变革性范式。然而,其性能很大程度上受服务器端用于合并本地模型更新的聚合策略影响,这直接决定了学习性能、鲁棒性和系统行为。本研究对广泛使用的联邦聚合策略在同质和异构数据分布下的表现进行了全面的实验比较。利用基准图像分类数据集,我们分析了不同聚合机制如何应对不同程度的数据异构性,考察其对中心化准确率和损失的影响,以及系统级效率指标(包括聚合时间、训练时间和通信时间)。结果表明,聚合策略在不同数据集和数据分布下表现出不同的权衡,其有效性根据数据集特征和操作条件而变化。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:27

# 同构与异构数据分布下联邦学习聚合策略的比较研究
来源: https://arxiv.org/html/2605.11010
###### 摘要

联邦学习已成为分布式环境中协作机器学习的变革性范式。然而,其性能强烈受到服务器用于合并本地模型更新的聚合策略的影响,这直接影响了学习性能、鲁棒性和系统行为。本文对在同构和异构数据分布下广泛使用的联邦聚合策略进行了全面的实验比较。利用基准图像分类数据集,我们分析了不同的聚合机制如何应对不同程度的数据异质性,考察它们对集中式准确率和损失的影响,以及对系统级效率指标(包括聚合时间、训练时间和通信时间)的影响。结果表明,聚合策略在不同数据集和数据分布下表现出不同的权衡,其有效性随数据集特性和运行条件而变化。

## I引言

传统的机器学习(ML)方法难以满足现代大规模和数据密集型应用日益增长的需求,特别是在数据分布在多个设备上并受隐私约束的场景中。集中式学习将数据汇聚到中央服务器进行模型训练,虽然可以实现较高的预测性能,但会引入显著的通信开销,引发隐私担忧,并可能违反数据保护法规。相比之下,分布式端侧学习通过启用本地模型训练避免了数据向中央权威的传输,但设备之间缺乏协作往往限制了泛化能力,导致性能次优\[14 (https://arxiv.org/html/2605.11010#bib.bib44),21 (https://arxiv.org/html/2605.11010#bib.bib51)\]。

为了克服这些局限性,联邦学习(FL)作为一种前沿的ML范式应运而生,它通过迭代通信轮次在非集中式客户端之间实现协作模型训练。这种方法提高了在大规模数据集上训练ML模型的效率,而这些数据集在单机上是无法处理的。中央服务器初始化全局模型并将其分发给一组参与的客户端。每个客户端在其私有数据上本地训练模型,并将生成的模型更新传输给服务器。然后,服务器聚合这些更新以优化全局模型,并在后续通信轮次中重新分发给客户端,直至收敛。通过将原始数据保留在本地,FL增强了数据隐私,同时也降低了通信成本\[23 (https://arxiv.org/html/2605.11010#bib.bib1)\]。

联邦学习中的一个关键挑战在于将客户端模型的更新聚合为一个在新数据上具有良好泛化能力的全球模型,无论参与客户端的多样性如何\[40 (https://arxiv.org/html/2605.11010#bib.bib50)\]。聚合策略的选择显著影响联邦学习的性能,不仅影响模型准确率,还影响收敛行为、对数据异质性的鲁棒性、隐私保护、计算效率和通信开销。现有的聚合方法从简单的平均技术到更先进的策略不等,后者结合了动量、自适应优化以及对异常值的鲁棒性等因素。

在本文中,我们对广泛使用且最先进的联邦学习聚合策略进行了全面的比较研究,包括 FedAvg、FedAvgM、FedAdam、FedAdagrad、FedMedian、FedProx 以及带有自适应裁剪的服务端差分隐私(DP)。这些策略在三个基准数据集 MNIST、FMNIST 和 CIFAR-10 上,分别在同构(IID)和异构(non-IID)数据分布下进行评估。性能评估使用与学习相关的指标,包括集中式准确率和损失,以及系统效率指标,如每轮聚合时间、每轮训练时间和每轮通信时间。通过这一分析,我们旨在提供关于不同聚合策略和数据分布下准确率与系统效率之间权衡的见解。结果表明,没有单一的聚合策略在所有场景中都占主导地位,强调聚合策略的选择取决于数据集复杂性、数据异质性程度以及系统和隐私需求,而不是一刀切的解决方案。

本文的其余部分组织如下。第二节(SectionII (https://arxiv.org/html/2605.11010#S2))回顾了联邦学习聚合策略的相关工作。第三节(SectionIII (https://arxiv.org/html/2605.11010#S3))介绍了本文研究的聚合方法。第四节(SectionIV (https://arxiv.org/html/2605.11010#S4))描述了实验设置并报告了实验结果。最后,第五节(SectionV (https://arxiv.org/html/2605.11010#S5))总结了主要见解并指出了未来工作的方向。

## II相关工作

联邦学习中的主要挑战之一是从本地模型更新中构建一个泛化能力强的全局模型。聚合策略在联邦学习中处于核心地位,因为它们决定了如何集成来自分布式客户端的本地更新以更新全局模型。根据现有文献,联邦学习中的聚合策略可以根据其主要焦点分为三大类:异质性与个性化、通信效率与优化、以及安全与隐私。

由于异质性是联邦学习实际部署中的重大挑战,能够有效处理各种形式异质性的聚合策略至关重要,同时确保全局模型能够从所有参与客户端中捕捉到有意义的模式。此类方法可分为三类:面向模型的、面向聚合过程的和面向客户端的。面向模型的策略旨在通过调整全局和局部模型的架构来增强个性化。这些策略的例子包括参数解耦,通过将模型参数划分为独立优化的子集(通常使用逐层分解)来缓解异质性,从而实现个性化模型学习\[2 (https://arxiv.org/html/2605.11010#bib.bib16)\];全局-局部模型组合,既保持一个协作训练的全局模型,又保持一个用于个性化的客户端特定的局部模型\[6 (https://arxiv.org/html/2605.11010#bib.bib17)\];以及模型分割,将模型分解为子模型或分支以减少每个客户端的计算和通信量\[8 (https://arxiv.org/html/2605.11010#bib.bib19)\]。面向聚合过程的策略专注于优化聚合过程的各种方面,包括训练超参数、损失公式、梯度变异性、收敛行为和学习方向。总体目标是实施能够加速联邦学习收敛并适应各个客户端多样化数据分布和系统特征的聚合机制。这包括基于聚合梯度的自适应优化器进行服务器端优化\[29 (https://arxiv.org/html/2605.11010#bib.bib9)\];正则化以减轻客户端漂移并防止过拟合\[20 (https://arxiv.org/html/2605.11010#bib.bib21)\];以及超参数优化,调整客户端选择、本地训练步骤数和聚合频率等因素,以平衡收敛速度和系统效率\[7 (https://arxiv.org/html/2605.11010#bib.bib22)\]。面向客户端的策略侧重于通过优先考虑拥有高质量数据和充分学习能力的可靠客户端的参与来增强聚合效果。此类策略的例子包括加权聚合,它为客户端更新分配重要性权重,改善 non-IID 条件下的收敛\[13 (https://arxiv.org/html/2605.11010#bib.bib11)\];以及客户端选择,根据数据质量、计算能力或分层结构仔细为每轮选择客户端子集\[9 (https://arxiv.org/html/2605.11010#bib.bib24)\]。

高效通信是联邦学习的关键方面,通常构成主要瓶颈。为此,提出了各种策略以减少通信开销并加速收敛。通信开销发生在多个客户端在模型更新期间向中央服务器传输大量数据时。现有解决方案可分为两类主要方法:减少训练延迟和适应网络拓扑。训练延迟取决于客户端设备的计算能力和工作负载。虽然硬件限制是固定的,但工作负载管理提供了减少训练时间和提高效率的机会。代表性策略包括负载均衡\[34 (https://arxiv.org/html/2605.11010#bib.bib25)\]、空中联邦学习(OTA FL)\[37 (https://arxiv.org/html/2605.11010#bib.bib26)\] 和异步聚合\[38 (https://arxiv.org/html/2605.11010#bib.bib27)\]。网络拓扑定义了设备的结构排列及其互连方式,也影响信息流。已经提出了诸如分层聚合\[33 (https://arxiv.org/html/2605.11010#bib.bib28)\] 和自适应网络拓扑\[22 (https://arxiv.org/html/2605.11010#bib.bib29)\] 等方法来优化这一方面。另一个重要的考虑因素是最大限度地减少数据传输相关的成本。网络条件、模型大小和聚合频率等因素会显著影响传输开销。模型大小缩减是一种常见的策略,它减少了客户端和服务器之间传输的参数数量。该领域的技术包括模型分割、压缩\[11 (https://arxiv.org/html/2605.11010#bib.bib31)\]、量化\[32 (https://arxiv.org/html/2605.11010#bib.bib32)\] 和素描(sketching)\[30 (https://arxiv.org/html/2605.11010#bib.bib30)\]。减少聚合频率是另一种有效的方法,因为许多梯度更新是冗余的,重复传输大型模型会增加网络负载和收敛时间。解决方案包括周期性聚合\[26 (https://arxiv.org/html/2605.11010#bib.bib33)\] 和固定通信轮次\[24 (https://arxiv.org/html/2605.11010#bib.bib34)\]。

鉴于联邦学习中安全和隐私威胁的多样性和复杂性日益增加,提出了各种机制来解决这些风险。面向客户端的方法通过分析联邦学习过程的元素(如客户端的本地更新和训练规则)来防御聚合攻击。即使无法访问原始客户端数据,中央聚合器也可以通过可靠性评估机制检测异常并减轻其影响。代表性解决方案包括异常检测\[27 (https://arxiv.org/html/2605.11010#bib.bib38)\]、验证技术\[36 (https://arxiv.org/html/2605.11010#bib.bib40)\]、对抗训练\[12 (https://arxiv.org/html/2605.11010#bib.bib41)\] 和联邦蒸馏\[31 (https://arxiv.org/html/2605.11010#bib.bib42)\]。面向聚合过程的方法旨在通过稳健和安全聚合技术\[5 (https://arxiv.org/html/2605.11010#bib.bib53)\] 构建能够抵御通信故障、客户端掉线和恶意行为的弹性管道。联邦学习依赖于聚合参与客户端/设备提供的模型更新,聚合通常设计为保护隐私。然而,该过程的一个关键弱点在于其对损坏更新的敏感性,无论是由于低成本低硬件故障无意引入\[15 (https://arxiv.org/html/2605.11010#bib.bib52)\],还是由对手故意引入。减轻联邦模型安全攻击的最普遍方法是采用比传统均值更抗异常值或极端值的估计器。用于聚合的常用算术均值缺乏鲁棒性,因为在给定轮次中即使是单个损坏的更新也会显著降低所有设备上的全局模型性能\[28 (https://arxiv.org/html/2605.11010#bib.bib43)\]。更具体地说,联邦学习中的传统方法使用 FedAvg 算法聚合本地模型参数\[23 (https://arxiv.org/html/2605.11010#bib.bib1)\]。虽然该方法在理论条件下表现良好,但已知在扩展时会受到系统异质性和统计异质性的困扰\[19 (https://arxiv.org/html/2605.11010#bib.bib45)\]。为了解决这些局限性,提出了许多基于更稳健估计器的聚合算子,例如中位数(Median)\[39 (https://arxiv.org/html/2605.11010#bib.bib10)\]、修剪均值(Trimmed-Mean)\[39 (https://arxiv.org/html/2605.11010#bib.bib10)\]、Krum 和 MultiKrum\[4 (https://arxiv.org/html/2605.11010#bib.bib46)\]、Bulyan\[10 (https://arxiv.org/html/2605.11010#bib.bib48)\] 以及 FedGreed\[16 (https://arxiv.org/html/2605.11010#bib.bib54)\]。

## III联邦学习聚合策略

FedAvg\[23 (https://arxiv.org/html/2605.11010#bib.bib1)\] 是联邦学习中使用的标准聚合方法。中央服务器计算从参与客户端接收到的模型更新的数据大小加权的逐元素平均值。每个客户端的贡献与其持有的本地数据样本数量成比例,确保全局更新反映潜在的数据分布。这种加权方案允许拥有较大数据集的客户端对全局模型产生更强的影响,这在客户端间数据量差异很大的场景中特别有益。由于其简单性和有效性,FedAvg 已成为联邦学习中最广泛采用的聚合策略之一。然而,FedAvg 依赖于一种朴素的坐标平均过程,可能导致次优解。在 non-IID 数据下,由于客户端的独特专业化,同一坐标中的神经元可能被优化用于完全不同的目的。因此,平均目的差异显著的神经元会降低整体性能。此外,每个通信轮次通常需要较长的本地训练阶段,以便客户端重建其专门的表示,从而降低训练效率。

FedAvgM(带动量的联邦平均)\[13 (https://arxiv.org/html/2605.11010#bib.bib11)\] 是标准 FedAvg 算法的扩展,在聚合过程中在服务器级别集成了动量项,灵感来自动量随机梯度下降。在这种方法中,服务器聚合本地模型更新,并对全局模型应用基于动量的更新。动量代表梯度历史的累积,并在每轮通过将之前存储的动量与新聚合的更新相结合进行更新。通过在服务器端引入动量,FedAvgM 减轻了由客户端之间的随机方差引起的客户端更新方向的变化,从而与 FedAvg 相比提高了模型稳定性并加速了收敛。然而,FedAvgM 需要仔细调整动量系数和学习率以避免不稳定性并确保收敛,同时服务器端动量的引入增加了计算开销,并且在极端异构数据分布下可能会降低鲁棒性

相似文章

异构时间分辨率下脉冲神经网络的联邦学习

arXiv cs.LG

本文提出了一种针对脉冲神经网络的联邦学习框架,解决了边缘设备上异构时间分辨率的挑战,能够在处理时间不匹配的同时实现无需共享原始数据的协作训练。

联邦学习

ML at Berkeley

本文解释了联邦学习作为一种保护隐私的机器学习技术的概念,该技术通过在本地设备而非中央服务器上训练模型来实现。文章详细描述了加密参数更新和聚合的过程,旨在降低数据泄露风险,同时保持模型性能。