FedQHD:闭式函数空间联邦强化学习
摘要
本文提出FedQHD,一种新颖的联邦Q学习方法,使用超维随机特征状态编码器和线性读出器实现闭式函数空间聚合,解决了异构客户端编码器导致的联邦差距。
arXiv:2605.29002v1 公告类型:新
摘要:联邦强化学习使分散的智能体能够在不交换原始轨迹的情况下协作改进策略或价值估计。然而,FedAvg风格的参数平均在函数空间上并不一致:当客户端使用异构编码器甚至相同的非线性网络时,平均参数不一定对应于任何公共函数空间中客户端价值函数的加权平均。我们提出FedQHD,一种使用超维(随机特征)状态编码器和线性读出器的联邦Q学习方法,使得Q函数在状态上非线性但在可训练参数上线性。这种线性结构实现了闭式聚合。在共享编码器的情况下,函数空间共识更新与局部读出矩阵的加权平均完全一致。对于异构编码器,服务器通过在共享锚状态集上平均客户端Q值来构建全局教师,每个客户端通过单次岭投影将该教师编译为其局部表示。我们形式化了联邦差距——将联邦教师编译为异构客户端表示时产生的误差——相对于特定于客户端的 oracle 投影。我们表明该差距可分解为子空间失调、锚状态集条件和正则化偏差。我们进一步确定锚点与维度之比 $m \geq D_i$ 为良好条件区域,在该区域内差距减小到编码器异构性底限的倍数。在四个连续状态、离散动作控制基准测试中,FedQHD 匹配或超越了 FedAvg 风格的基线和基于蒸馏的替代方案,同时所需计算量大幅减少,并且联邦差距对编码器维度的经验依赖性与我们的理论分析一致。
查看缓存全文
缓存时间: 2026/05/29 09:14
# FedQHD: 闭式函数空间联邦强化学习
来源:https://arxiv.org/html/2605.29002
Yuchen Hou¹ Yongshan Chen¹ Zhuowen Zou² Calvin Yeung² Mohsen Imani² Tian Lan³ Mahdi Imani¹
¹东北大学 ²加州大学尔湾分校 ³乔治华盛顿大学
\{hou\.yuchen, chen\.yongs, m\.imani\}@northeastern\.edu
\{zhuowez1, chyeung2, m\.imani\}@uci\.edu
tlan@gwu\.edu
###### 摘要
联邦强化学习使分散的智能体能够在不交换原始轨迹的情况下协作改进策略或价值估计。然而,FedAvg风格的参数平均在函数空间上并不一致:当客户端使用异构编码器甚至完全相同的非线性网络时,平均后的参数不一定对应于任何共同函数空间内客户端价值函数的加权平均。我们提出**FedQHD**,一种使用超维(随机特征)状态编码器和线性读出层的联邦Q学习方法,使得Q函数在状态上非线性,但在可训练参数上线性。这种线性结构实现了闭式聚合。当使用共享编码器时,函数空间共识更新恰好等同于局部读出矩阵的加权平均。当使用异构编码器时,服务器通过对共享锚定状态集上的客户端Q值进行平均来构建全局教师模型,每个客户端通过一次岭回归投影将该教师模型编译到其局部表示中。我们形式化了**联邦差距**——将联邦教师模型编译到异构客户端表示时产生的误差,相对于客户端特定的最优投影。我们证明该差距可分解为子空间错位、锚定集条件数和正则化偏差。我们进一步确定锚定状态数与维度之比 \(m \geq D_i\) 为良态区域,在此区域差距简化为编码器异质性下限的倍数。在四个连续状态、离散动作控制基准上,FedQHD 匹配或优于 FedAvg 风格基线和基于蒸馏的替代方案,同时计算量显著减少,且联邦差距对编码器维度的经验依赖性与我们的理论分析一致。
## 1 引言
在自动驾驶 (Liang et al., 2022 (https://arxiv.org/html/2605.29002#bib.bib8); Chellapandi et al., 2023 (https://arxiv.org/html/2605.29002#bib.bib7))、工业机器人 (Liu et al., 2019 (https://arxiv.org/html/2605.29002#bib.bib6)) 和资源受限的边缘设备 (Yu et al., 2020 (https://arxiv.org/html/2605.29002#bib.bib5)) 中的强化学习系统,通常从设备上的交互数据中学习,但由于通信成本、隐私要求和设备经验的体积,这些数据无法集中处理。联邦强化学习 (FedRL) 针对此场景,允许智能体在不共享原始轨迹的情况下联合改进 (Zhuo et al., 2020 (https://arxiv.org/html/2605.29002#bib.bib29); Qi et al., 2021 (https://arxiv.org/html/2605.29002#bib.bib10))。
大多数 FedRL 流程继承了监督联邦学习中的参数平均 (FedAvg) (McMahan et al., 2017 (https://arxiv.org/html/2605.29002#bib.bib30)):客户端本地训练,服务器平均参数,然后将平均模型广播回去。然而,联邦 **Q** 学习暴露出两个结构性障碍。首先,非线性价值网络的权重平均并非价值函数平均;要实现函数空间上的一致通常需要额外的优化。其次,实际部署是结构异构的:客户端可能使用不同的编码器、特征维度或架构,导致参数平均在代数上无定义 (Fan et al., 2023 (https://arxiv.org/html/2605.29002#bib.bib33); Jiang et al., 2025 (https://arxiv.org/html/2605.29002#bib.bib22))。
处理异构联邦的主导方法是知识蒸馏 (Li and Wang, 2019 (https://arxiv.org/html/2605.29002#bib.bib23); Lin et al., 2021 (https://arxiv.org/html/2605.29002#bib.bib34); Jiang et al., 2025 (https://arxiv.org/html/2605.29002#bib.bib22)),它在共享查询状态上交换预测,并迭代地训练局部学生模型以接近集成的教师模型。蒸馏引入了每轮迭代优化、超参数敏感性,以及在线 RL 非平稳 Bellman 目标下的不稳定性 (Czarnecki et al., 2019 (https://arxiv.org/html/2605.29002#bib.bib19))。我们追求一种替代方案,在异构表示下仍然具有良好的定义,且无需迭代的师生训练。
超维计算 (HDC),以及更一般的固定随机特征价值近似,提供了一种替代的价值表示:状态通过一个固定的高维特征映射进行映射,动作值由线性读出层产生 (Kanerva, 2009 (https://arxiv.org/html/2605.29002#bib.bib43))。这种线性读出层实现了闭式最小二乘风格的更新,并避免了超维 Q 学习 (QHD) 中的反向传播 (Ni et al., 2022a (https://arxiv.org/html/2605.29002#bib.bib38))。可训练参数上的线性也简化了联邦:对于线性参数的 value 函数,在价值函数空间中的平均恰好等于参数的平均 (Lagoudakis and Parr, 2003 (https://arxiv.org/html/2605.29002#bib.bib17); Bhandari et al., 2018 (https://arxiv.org/html/2605.29002#bib.bib15)),并且异构聚合简化为一个投影步骤,而非迭代蒸馏。
我们提出 **FedQHD**,一个通过 QQ 值聚合客户端并在编码器异构下仍具有良好定义的联邦 QQ 学习框架。当使用共享编码器时,联邦更新恰好简化为读出矩阵的加权平均,以闭式形式恢复 FedAvg。当使用异构编码器时,服务器通过在共享**锚定**集上平均客户端 QQ 值来形成教师模型,每个客户端通过每轮一次岭回归求解将该教师模型编译到其自身表示中——无需交换轨迹,无需迭代优化。
我们的贡献是:
- **异构编码器下的闭式联邦。** 我们提出了一种闭式联邦 QQ 学习算法,能在单步中处理异构编码器,通过基于锚定的岭回归将函数空间教师模型编译到每个客户端的局部表示中,并在编码器共享时精确恢复 FedAvg。
- **联邦差距的逐点界。** 我们推导出一个逐点界,将该差距分解为三个可解释的项——编码器异质性、锚定条件数和岭收缩——并确定 \(m \geq D_i\) 为良态区域,在此区域差距简化为异质性下限的倍数。
- **四个连续控制基准上的实证验证。** 我们在同构和异构编码器下对四个连续控制任务进行了实验,表明 FedQHD 匹配或超越联邦 DQN 基线,同时运行速度明显快于基于蒸馏的替代方案,消融实验证实了对编码器维度和锚定集大小的预测依赖性。
## 2 相关工作
#### 共享参数化的联邦 RL。
联邦学习因 FedAvg 而普及,它通过迭代参数平均聚合客户端模型 (McMahan et al., 2017 (https://arxiv.org/html/2605.29002#bib.bib30))。早期的联邦 RL 系统通过跨智能体共享神经价值或策略网络参数来应用这一范式 (Zhuo et al., 2020 (https://arxiv.org/html/2605.29002#bib.bib29); Nadiger et al., 2019 (https://arxiv.org/html/2605.29002#bib.bib28)),包括在分布偏移下的自动驾驶 (Liang et al., 2022 (https://arxiv.org/html/2605.29002#bib.bib8)) 和拜占庭鲁棒策略梯度 (Fan et al., 2021 (https://arxiv.org/html/2605.29002#bib.bib27)) 等应用。最近的工作建立了马尔可夫采样下联邦 TD 和 Q 学习的有限时间保证 (Khodadadian et al., 2022 (https://arxiv.org/html/2605.29002#bib.bib26)),并分析了环境异构下的性能退化 (Jin et al., 2022 (https://arxiv.org/html/2605.29002#bib.bib39))。然而,这些方法假设客户端之间采用**共享参数化**:FedAvg 风格的聚合要求参数形状相同,当客户端使用不同的编码器或特征维度时是无定义的。
#### 方差减少与个性化。
若干工作解决了 FedAvg 中的优化漂移。FedProx (Li et al., 2020 (https://arxiv.org/html/2605.29002#bib.bib3)) 引入了近端正则化,而 SCAFFOLD (Karimireddy et al., 2020 (https://arxiv.org/html/2605.29002#bib.bib2)) 使用控制变量减少客户端方差。个性化联邦学习方法进一步允许每个客户端维护一个本地自适应模型 (Fallah et al., 2020 (https://arxiv.org/html/2605.29002#bib.bib1))。相比之下,FedQHD 在同构情况下完全消除了客户端漂移(精确聚合),并通过闭式岭投影而非迭代优化来处理异构编码器。
#### 异构下的基于蒸馏的联邦。
知识蒸馏在输出空间而非参数空间聚合模型 (Hinton et al., 2015 (https://arxiv.org/html/2605.29002#bib.bib31)),使得跨异构架构的联邦成为可能。在监督联邦学习中 (Li and Wang, 2019 (https://arxiv.org/html/2605.29002#bib.bib23); Lin et al., 2021 (https://arxiv.org/html/2605.29002#bib.bib34); Zhu et al., 2021 (https://arxiv.org/html/2605.29002#bib.bib21); Chen and Chao, 2020 (https://arxiv.org/html/2605.29002#bib.bib20)),不同方法在代理数据假设上各有差异,但都依赖于迭代的基于梯度的拟合。在 RL 中,策略蒸馏 (Rusu et al., 2016 (https://arxiv.org/html/2605.29002#bib.bib32)) 和 Distral (Teh et al., 2017 (https://arxiv.org/html/2605.29002#bib.bib35)) 引入了函数空间迁移机制。最近的异构 FedRL 方法采用了类似原则:FedHQL 通过服务器端查询聚合模型 (Fan et al., 2023 (https://arxiv.org/html/2605.29002#bib.bib33)),SCCD 使用伪数据蒸馏集成模型 (Mai et al., 2023 (https://arxiv.org/html/2605.29002#bib.bib4)),FedHPD 在共享锚定状态上匹配动作分布 (Jiang et al., 2025 (https://arxiv.org/html/2605.29002#bib.bib22))。这些方法需要迭代的师生优化,并且可能对设计和超参数选择敏感,尤其是在非平稳 Bellman 目标下 (Czarnecki et al., 2019 (https://arxiv.org/html/2605.29002#bib.bib19))。
#### RL 中的线性函数逼近、核与随机特征。
线性价值函数逼近长期以来提供了稳定且可分析的 RL 算法。最小二乘方法如 LSPI 和拟合 Q 迭代将 Bellman 更新表述为具有闭式解的回归问题 (Lagoudakis and Parr, 2003 (https://arxiv.org/html/2605.29002#bib.bib17); Ernst et al., 2005 (https://arxiv.org/html/2605.29002#bib.bib16)),而在独立同分布和马尔可夫采样下,线性 TD 的有限时间保证已被建立 (Bhandari et al., 2018 (https://arxiv.org/html/2605.29002#bib.bib15))。核和基函数方法将此框架扩展到非线性状态表示,同时保持线性参数结构 (Ormoneit and Sen, 2002 (https://arxiv.org/html/2605.29002#bib.bib12); Konidaris et al., 2011 (https://arxiv.org/html/2605.29002#bib.bib11))。随机傅里叶特征提供了可扩展的核近似 (Rahimi and Recht, 2007 (https://arxiv.org/html/2605.29002#bib.bib41)),遗憾分析将再生核希尔伯特空间 (RKHS) 几何与 RL 样本复杂度联系起来 (Jin et al., 2020 (https://arxiv.org/html/2605.29002#bib.bib14))。HDC (Kanerva, 2009 (https://arxiv.org/html/2605.29002#bib.bib43)) 可视为高维随机特征的实例化;QHD 和 HDPG 表明 HDC 编码器能够通过线性读出层和最小二乘风格的更新实现高效的 RL (Ni et al., 2022a (https://arxiv.org/html/2605.29002#bib.bib38), b (https://arxiv.org/html/2605.29002#bib.bib13))。
#### FedQHD 的定位。
FedQHD 处理联邦 Q 学习中的**结构异构**,即客户端可能使用不同的编码器和参数维度,此时参数平均变得无定义 (Fan et al., 2023 (https://arxiv.org/html/2605.29002#bib.bib33); Jiang et al., 2025 (https://arxiv.org/html/2605.29002#bib.bib22))。FedQHD 不采用迭代蒸馏,而是在共享的锚定状态接口上聚合 Q 值,并通过一次闭式岭投影将得到的共识编译到每个客户端表示中。在同构极限(共享编码器)下,该过程恰好简化为参数平均,将经典联邦学习与异构价值函数聚合连接起来。
## 3 预备知识
### 3.1 马尔可夫决策过程与离策略价值学习
我们考虑一个马尔可夫决策过程 \(\mathcal{M}=(\mathcal{S},\mathcal{A},P,r,\gamma)\),其中 \(\mathcal{S}\) 是连续状态空间,\(\mathcal{A}\) 是有限动作集,\(P:\mathcal{S}\times\mathcal{A}\to\Delta(\mathcal{S})\) 是转移核,\(r:\mathcal{S}\times\mathcal{A}\to\mathbb{R}\) 是奖励函数,\(\gamma\in(0,1)\) 是折扣因子。最优动作价值函数 \(Q^{\star}\) 是 Bellman 最优算子的唯一不动点:
\[
Q^{\star}(s,a)=r(s,a)+\gamma\,\mathbb{E}_{s^{\prime}\sim P(\cdot|s,a)}\left[\max_{a^{\prime}\in\mathcal{A}}Q^{\star}(s^{\prime},a^{\prime})\right],
\]
最优策略为 \(\pi^{\star}(s)=\arg\max_{a}Q^{\star}(s,a)\)。由于 \(\mathcal{S}\) 是连续的,\(Q^{\star}\) 使用标准的离策略时间差分框架进行近似:转移 \((s,a,r,s^{\prime})\) 存储在重放缓冲区中,\(Q^{\star}\) 通过对周期性冻结的目标网络进行半梯度更新来估计 (Ni et al., 2022a (https://arxiv.org/html/2605.29002#bib.bib38))。
### 3.2 超维计算 (HDC)
HDC 是一种受大脑启发的计算范式,其中符号和结构化实体表示为高维向量——称为**超向量**——其分量独立地从简单分布中抽取 (Kanerva, 2009 (https://arxiv.org/html/2605.29002#bib.bib43))。在这样的空间中,独立采样的超向量以高概率近似正交,这一几何特性构成了经典 HDC 操作的基础,如**捆绑**(通过加法叠加)、**绑定**(通过逐元素乘法或置换关联)和**置换**(角色转移)。由于信息在全息上分布到所有维度,HDC 表示对噪声、量化和部分损坏具有很强的鲁棒性。
给定输入 \(x\),HDC 编码器使用随机投影或基于少量基础超向量的组合方案产生一个有界超向量 \(\phi(x)\in\mathbb{K}^{D}\)。这些编码器具有精确的随机特征解释:经验核 \(k_D(x,x^{\prime})=\langle\phi(x),\phi(x^{\prime})\rangle\) 随着 \(D\to\infty\) 收敛到光滑的极限核 \(k_{\ast}(x,x^{\prime})\),并以 \(O(D^{-1/2})\) 的速率均匀集中 (Rahimi and Recht, 2007 (https://arxiv.org/html/2605.29002#bib.bib41); Bach, 2015 (https://arxiv.org/htm相似文章
M$^2$FedAQI: 用于异构边缘设备空气质量预测的多模态联邦学习
提出了M²FedAQI,一种轻量级多模态联邦学习框架,用于跨异构边缘设备的空气质量预测,在基准数据集上相比基线取得了显著改进。
公平强化学习
公平强化学习引入了民主对齐,以整合来自不同代理的多个竞争性价值集,克服了传统RLHF的局限性,并通过黑盒策略包装器实现了数量级更快的优化。
在量子退火器上通过基于QUBO的客户端选择的拜占庭鲁棒联邦学习
本文提出了一种量子退火方法,将联邦学习中的客户端选择重新表述为QUBO问题以防御拜占庭攻击。实验表明,在复杂攻击上,该方法相比经典MultiKrum具有更高的检测准确性,尤其是与MultiSignal集成结合时。
联邦学习
本文解释了联邦学习作为一种保护隐私的机器学习技术的概念,该技术通过在本地设备而非中央服务器上训练模型来实现。文章详细描述了加密参数更新和聚合的过程,旨在降低数据泄露风险,同时保持模型性能。
用于样本高效连续控制的无偏模型化表示
本文介绍了 DR.Q 算法,该算法通过最大化互信息并采用淡出优先经验回放,改善了 Q-learning 的模型化表示,从而减少了连续控制任务中的偏差和过拟合。