联邦哈希投影潜在因子学习
摘要
本文提出了一种联邦哈希投影潜在因子(FHPLF)模型,该模型将哈希学习集成到联邦学习中,以降低通信成本并增强隐私保护,通过使用二值类梯度矩阵和投影汉明距离来提高准确性和效率。
arXiv:2606.26192v1 Announce Type: new
摘要:哈希学习(HL)是一种高效的表示学习方法,能将实值数据映射为紧凑的二值表示。传统的HL方法通常要求用户将个人数据上传至中央服务器,这与日益严格的数据安全法规不相容。联邦学习(FL)提供了一种去中心化的范式,无需集中私有数据即可学习全局最优模型。然而,大多数FL方法依赖于传输大规模实值梯度信息,导致通信开销高且存在隐私风险。将HL集成到FL中是一种有前景的解决方案。但现有HL方法受限于二值编码的表示能力,可能降低模型精度。为应对这一挑战,我们提出了一种联邦哈希投影潜在因子(FHPLF)模型。FHPLF引入了三项关键创新:(a)用二值类梯度矩阵替代实值梯度矩阵,显著降低计算、存储和通信成本,同时增强隐私保护;(b)利用投影汉明距离进行相似性建模,捕捉单个二值位的重要性以提升表示能力;(c)提出一种安全二值梯度重组与隐私增强上传(SBG-PEU)策略,进一步降低传输过程中用户交互泄露的风险。在四个真实世界数据集上的大量实验表明,FHPLF始终优于最先进的HL和FL方法,在精度、效率和隐私保护之间实现了良好的权衡。
查看缓存全文
缓存时间: 2026/06/26 05:16
# 联邦哈希投影潜在因子学习 来源:https://arxiv.org/html/2606.26192 何嘉兰 计算机与信息科学学院 西南大学 重庆 400715, 中国 nihhu2020@email\.swu\.edu\.cn ###### 摘要 哈希学习(HL)是一种高效的表示学习方法,可将实值数据映射为紧凑的二进制表示。传统的 HL 方法通常要求用户将个人数据上传到中央服务器,这与日益严格的数据安全法规不相容。联邦学习(FL)提供了一种去中心化的学习范式,能够在不集中化私有数据的情况下学习全局最优模型。然而,大多数 FL 方法依赖传输大规模的实值梯度信息,这导致较高的通信开销和潜在的隐私风险。将 HL 整合到 FL 中是一种有前景的解决方案。然而,现有的 HL 方法受到二进制编码表示能力有限的限制,可能降低模型精度。为了解决这一挑战,我们提出了一种联邦哈希投影潜在因子(FHPLF)模型。FHPLF 引入三项关键创新:(a) 用二进制类梯度矩阵替代实值梯度矩阵,显著降低计算、存储和通信成本,同时增强隐私保护;(b) 利用投影汉明距离进行相似性建模,捕捉单个二进制位的重要性,提升表示能力;(c) 提出安全二进制梯度重组与隐私增强上传(SBG-PEU)策略,进一步降低传输过程中用户交互泄露的风险。在四个真实世界数据集上的大量实验表明,FHPLF 始终优于最先进的 HL 和 FL 方法,在精度、效率和隐私保护之间实现了良好的平衡。 ## 1 引言 随着数字信息的快速扩张[62, 40, 47],用户日益面临信息过载[3, 46, 7]。推荐系统[10]通过过滤信息并提供个性化内容、服务和产品来解决这一问题。其中,协同过滤[49],特别是潜在因子(LF)模型[22, 18, 69, 38],因其准确性和可扩展性而被广泛使用[60, 9, 72, 52]。基于 LF 的方法[29, 70, 30, 42, 88]通过学习用户在共享潜在空间中的紧凑潜在表示,有效解决高维不完整(HDI)数据[5, 36, 76],并通过内积预测偏好。为了进一步提高优化效率,DPL[39]引入了一种基于动态 PSO 的方法,用于潜在因子分析中的自适应超参数调优,在训练过程中实现实时参数调整。除了推荐之外,LFA-STSR[56]将潜在特征分析与时空正则化和 L1 范数鲁棒性相结合,用于在异常值存在下恢复 WSN 中的缺失数据。然而,随着数据规模和维度的增长,重复的内积计算带来了高昂的计算和存储成本,限制了其在大规模推荐场景中的效率[11, 17]。 哈希学习(HL)[51]为提高推荐效率提供了一种有效解决方案。它将在汉明空间中的实体编码为二进制表示,每个元素设为 +1 或 -1,与实值表示相比,每个元素从 64 位减少到仅 1 位[71]。这些紧凑的二进制编码也降低了表示传输过程中的通信成本。此外,HL 用高效的位运算取代昂贵的内积计算,从而加快实体之间的推理速度[83, 85, 32, 16]。尽管现有的 HL 方法[83, 85, 32, 16, 17, 33]取得了进展,但它们大多遵循集中式学习范式。具体而言,用户-项目交互数据被收集到中央服务器上,以构建评分矩阵进行模型训练[31],这要求用户披露敏感信息,从而引发隐私问题[15]。 联邦学习(FL)[14]是一种去中心化的机器学习范式,能够在无需共享原始用户数据的情况下协作训练模型[21]。在 FL 中,客户端从中央服务器下载全局模型,使用本地数据更新模型,并上传模型参数(例如梯度)进行聚合。服务器随后将这些更新组合起来,通过迭代通信轮次改进全局模型[14]。通过将用户数据保留在本地设备上,FL 在保持模型性能的同时有效保护隐私[6]。由于这些优势,FL 已被广泛应用于表示学习,并产生了各种联邦框架。一个代表性的例子是联邦协同过滤(FCF)[21],其中用户嵌入在本地更新,而项目嵌入由服务器和客户端联合优化。 现有的联邦学习研究主要在实值空间中运行,这在大规模场景下面临挑战。服务器与众多客户端之间频繁的模型更新通信会带来巨大的通信开销[45, 84, 1, 12]。此外,模型梯度的传输可能暴露敏感的客户端信息,导致潜在的隐私泄露[90, 53, 43]。为了解决这些问题,[84]引入了 LightFR,它将 HL 与 FL 整合在一起。然而,与大多数 HL 方法一样,LightFR 依赖汉明距离进行相似性度量,这会将所有位视为同等重要,无法建模位级别的重要性,导致信息丢失和表示精度下降。相比之下,投影汉明距离通过将项目的二进制表示投影到查询空间以捕获位重要性,缓解了这一问题。具体来说,值为 -1 的查询位会将对应的项目位置为 -1,表示不相关,从而强调其余信息位[33]。 为了解决上述低效和隐私问题,本文提出了一种新颖且高效的联邦哈希学习框架 FHPLF。FHPLF 旨在保护客户端数据隐私的同时,实现高效准确的二进制表示学习,相较于现有方法[21, 6, 31, 28, 83, 85, 32, 16, 17, 33, 82]提供了若干关键优势。首先,它无需集中化数据即可学习全局最优模型,从而确保对本地客户端信息的强隐私保护。其次,它整合了投影汉明距离[33]来为不同的位分配不同的重要性,提高了二进制表示的表达能力。第三,其离散的二进制表示显著降低了通信、计算和存储成本,同时也降低了梯度泄露的风险[8]。具体来说,FHPLF 还包含一种高效的联邦离散优化策略,该策略传输二进制的“类梯度”信号以提升通信效率并减少隐私暴露,以及一种安全二进制梯度重组与隐私增强上传(SBG-PEU)机制,防止用户交互信息的泄露。在四个真实世界数据集上的大量实验表明,FHPLF 在联邦学习环境中实现了隐私保护、二进制表示学习和通信效率方面的优异性能。 ## 2 相关工作 ### 2.1 潜在因子模型 LF 模型[68, 87, 50]最初为推荐系统[22]开发,由于其能够捕获稀疏和部分观测数据背后的潜在结构[26, 44],已被广泛应用于各个领域,作为表示高维不完整(HDI)矩阵[27, 78, 66]的有效且可扩展的工具。最近的扩展主要集中在改进数据/结构建模和训练效率。在数据/结构建模方面,PMLF[58]通过基于预测采样的多层合成补全来稠密化观测数据。GLFA[54]则将隐藏图结构和高阶交互纳入循环因子学习。非负性感知变体如 ADNLF 和 FNAE[80, 4]通过自适应散度目标或快速非负自动编码器风格更新增强了表达能力。最近,MMA[57]提出了一种使用多种 Lp 范数并自适应加权的多度量自动编码器,增强了 HDI 数据的表示学习。MILFT-SSR[74]将 LF 扩展到多指标张量建模,用于 WSN 中的时空信号恢复,捕获指标间和空间相关性。EKL[81]进一步将基于扩展卡尔曼滤波的时序动态引入潜在特征分析,用于时变 QoS 预测。在训练效率方面,APNLF[23]通过引入带有自适应超参数控制的 PID 嵌入优化方案,改进了非负潜在因子学习,加速了乘法更新的收敛。FPS[77]引入了模糊 PID 控制的 SGD。PPL[35]采用伪梯度调整的 PSO 实现高效的超参数自适应,MH[25]利用 Hessian-向量积结合动量实现高效的二阶优化。专门的设计进一步处理了时序动态(KLFA)和 QoS 预测鲁棒性(D2E-LF)[79, 64]。最近,LF 的联邦扩展已经出现,以解决分布式场景中的隐私问题。FLFT[65]将张量的潜在因子分解扩展到联邦学习环境,实现了对分布式张量结构交互数据的隐私保护表示学习。类似地,FLFL[75]以联邦方式应用潜在因子学习,用于无线传感器网络中的时空信号恢复,其中传感器观测被建模为不完整的张量结构数据,并在不共享原始测量的情况下协作恢复。总体而言,尽管取得了这些进展,大多数 LF 变体仍然遵循集中式实值训练范式,需要将多方数据上传或聚合到服务器,这在规模上带来了大量的计算/存储开销,并引入了不可忽视的隐私风险。 ### 2.2 哈希学习 HL[51]方法通过优化实体的二进制表示,在减少计算、存储和通信成本方面取得了重大进展。[83]引入了离散协同过滤(DCF),这是一种直接优化哈希表示的方法。随后,同一作者提出了专门处理隐式反馈的离散个性化排序(DPR)[85]。为了融合离散和实值表示的优势,提出了一种混合协同过滤模型,称为组合编码(CCCF)[32]。深度哈希方法通过与各种神经网络架构(如 Neu-hash[16]和 HS-GCN[33])集成而得到发展。[17]引入了一种基于投影汉明距离的新模型(VHPHD),以实现更准确的二进制表示。最近,NGHF[55]通过引入一种非梯度离散差分进化框架用于直接二进制优化,减轻了量化损失。
相似文章
联邦学习
本文解释了联邦学习作为一种保护隐私的机器学习技术的概念,该技术通过在本地设备而非中央服务器上训练模型来实现。文章详细描述了加密参数更新和聚合的过程,旨在降低数据泄露风险,同时保持模型性能。
FedQHD:闭式函数空间联邦强化学习
本文提出FedQHD,一种新颖的联邦Q学习方法,使用超维随机特征状态编码器和线性读出器实现闭式函数空间聚合,解决了异构客户端编码器导致的联邦差距。
面向联邦长尾图学习:一种能量引导的双解耦方法
本文介绍了FedEPD,一个用于长尾数据分布下联邦图学习的框架。它采用能量引导的双解耦方法,将拓扑纯化与语义重校准分离,在基准测试中实现了最先进的性能,准确率提升高达4.97%。
准确且资源高效的联邦持续学习
FedRAN是一种资源感知的分析型联邦持续学习框架,用紧凑的随机特征统计量替代基于梯度的更新,在显著降低通信与计算成本的同时实现高精度。
FIRMA: 基于斐波那契环模型聚合的隐私保护联邦学习
本文介绍了FIRMA,一种包含三种隐私保护联邦学习协议的系列方案,采用斐波那契加权环聚合,实现了无服务器运行、永久隐私的分类头以及在数据异构性下提高准确率。