FedUP: 基于质心引导的可插拔过滤器的一次性联邦遗忘

arXiv cs.LG 2026/06/24 04:00 论文

federated-unlearning one-shot centroid-guided plug-in-filters knowledge-funnel differential-privacy privacy

摘要

FedUP提出了一种一次性联邦遗忘框架，利用差分私有类质心引导的轻量级可插拔过滤器，无需多轮通信即可高效移除特定知识，实现了低延迟和内在可逆性。

arXiv:2606.24113v1 Announce Type: new Abstract: 联邦遗忘（FU）对于遵守去中心化系统中“被遗忘权”等法律要求至关重要，然而当前方法在非目标知识丢失和高请求延迟之间面临持续困境。为解决这些问题，我们提出了FedUP，一种利用轻量级可插拔过滤器的一次性联邦遗忘框架，这些过滤器充当“知识漏斗”，在保留原始模型性能的同时筛选出目标数据。通过冻结原始模型参数并在服务器端使用差分私有（DP）保护的类质心样本训练过滤器，FedUP避免了多轮客户端-服务器通信和复杂重训练的需要，将遗忘延迟从几分钟降低到仅几秒。此外，该框架的可插拔架构确保了内在可逆性，只需移除过滤器即可无缝恢复被遗忘的知识。在多种图像和文本任务上的大量实验表明，FedUP有效减少了非目标知识丢失，并在各种场景下实现了优越的遗忘精度和效率。代码可在 https://github.com/suows/FedUP-code 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:50

# FedUP：基于质心引导的即插即用过滤器的单次联邦遗忘
来源: https://arxiv.org/html/2606.24113
Zhengyi Zhong\(^1\), Pan Wang\(^1\), Weidong Bao\(^1\), Xiongtao Zhang\(^1\), Quan Wen\(^1\), & Ji Wang\(^1\). \(^1\)中国国防科技大学大数据与决策国家重点实验室\. feihongnan178@outlook\.com, \{zhongzhengyi20, wangpan19, wdbao, zhangxiongtao14, wangji\}@nudt\.edu\.cn, weixingw1@sina\.com通讯作者

###### 摘要

联邦遗忘（FU）对于遵守去中心化系统中被遗忘权等法律要求至关重要，然而当前方法在非目标知识丢失和请求延迟高之间面临持续困境。为解决这些问题，我们提出 FedUP，一个基于轻量级可插拔过滤器的单次联邦遗忘框架，这些过滤器充当“知识漏斗”，筛选出目标数据，同时保持原始模型性能。通过在服务器端使用差分隐私（DP）保护的类质心样本冻结原始模型参数并训练过滤器，FedUP 绕过了多轮客户端-服务器通信和复杂的重训练，将遗忘延迟从分钟级降低到秒级。此外，该框架的可插拔架构确保内在可逆性，只需移除过滤器即可无缝恢复遗忘的知识。在多种图像和文本任务上的广泛实验表明，FedUP 有效减少了非目标知识丢失，并在各种场景下实现了卓越的遗忘精度和效率。代码可于 https://github.com/suows/FedUP-code 获取。

## 1 引言

背景。作为一种分布式机器学习范式，联邦学习（FL）[McMahan 等人 (2016)](https://arxiv.org/html/2606.24113#bib.bib3); [Truong 等人 (2021)](https://arxiv.org/html/2606.24113#bib.bib67); [Zhong 等人 (2022)](https://arxiv.org/html/2606.24113#bib.bib82); [Qi 等人 (2024)](https://arxiv.org/html/2606.24113#bib.bib83); [Zhong 等人 (2025a)](https://arxiv.org/html/2606.24113#bib.bib25); [Fu 等人 (2025b)](https://arxiv.org/html/2606.24113#bib.bib84); [Jiang 等人 (2026)](https://arxiv.org/html/2606.24113#bib.bib81) 最近在隐私敏感场景中引起了广泛关注，因为它无需在训练期间集中化原始数据。然而，在训练过程中，全局模型通过多轮参数聚合将客户端信息内化到其参数中，当模型面临 GDPR [de la Torre (2018)](https://arxiv.org/html/2606.24113#bib.bib2) 等法律要求下的被遗忘权时，这暴露了新的隐私风险。为解决这一问题，研究者聚焦于联邦遗忘（FU），旨在无需从头重训练全局模型的情况下移除特定知识。现有 FU 方法主要遵循两种技术范式：服务器端 FU 方法 [Wu 等人 (2022)](https://arxiv.org/html/2606.24113#bib.bib4); [Huynh 等人 (2025)](https://arxiv.org/html/2606.24113#bib.bib5); [Pan 等人 (2025)](https://arxiv.org/html/2606.24113#bib.bib6)，其在服务器端对全局模型实现近似遗忘 [Yang 等人 (2025)](https://arxiv.org/html/2606.24113#bib.bib11)；以及客户端端 FU 方法 [Wang 等人 (2023b)](https://arxiv.org/html/2606.24113#bib.bib7); [Liu 等人 (2022)](https://arxiv.org/html/2606.24113#bib.bib8); [Zhu 等人 (2023)](https://arxiv.org/html/2606.24113#bib.bib9); [Zhong 等人 (2025b)](https://arxiv.org/html/2606.24113#bib.bib10)，其通过迭代的客户端端模型重训练程序实现精确遗忘 [Kuo 等人 (2025)](https://arxiv.org/html/2606.24113#bib.bib12)。

参见说明 (a) 服务器端 FU 方法的非目标知识丢失。
参见说明 (b) 客户端端 FU 方法的遗忘请求延迟。

图 1: FedEraser，一种典型的服务器端方法，在多个任务上遗忘后表现出明显的非目标知识丢失。客户端端方法如 FUSED 随着任务难度增加收敛时间显著延长，响应时间长达 5 分钟，表明严重的遗忘请求延迟。现有挑战。虽然当前联邦遗忘（FU）方法在不同程度上促进了知识移除，但非目标知识丢失和遗忘请求延迟方面的挑战仍然存在。如图 1 (https://arxiv.org/html/2606.24113#S1.F1) 所示，服务器端 FU 方法缺乏对遗忘范围的精确控制，经常导致非目标知识丢失，即与遗忘请求无关的模型性能在知识移除过程中不可避免地受损。相反，尽管客户端端 FU 方法通过基于重训练的方法实现了精确遗忘，但它们受多轮训练和通信的严重制约，导致高请求延迟。至今，很难找到一种能同时确保快速响应和防止非目标知识丢失的解决方案。此外，服务器端和客户端端 FU 范式通常依赖对原始模型参数的直接修改，这导致遗忘的不可逆性。一旦遗忘过程完成，恢复之前移除的知识需要进一步的参数调整或重训练，从而给实际部署带来复杂性和额外开销。

提出的解决方案。为此，我们提出 FedUP，一种基于轻量级可插拔过滤器的单次联邦遗忘框架。在缓解非目标知识丢失方面，该框架避免对全局模型进行直接的大规模参数更新；相反，它通过引入独立的可插拔过滤器来实现遗忘，同时冻结原始模型参数（如图 2 (https://arxiv.org/html/2606.24113#S1.F2) 所示）。这些过滤器充当“知识漏斗”，筛选出目标知识，只允许非目标知识通过，从而减少遗忘对非目标知识的干扰。为降低遗忘请求延迟，FedUP 只需在服务器端使用差分隐私（DP）保护的类质心样本对轻量级过滤器进行少量轮次的微调，即可完成遗忘任务。这绕过了多轮重训练和与客户端的频繁通信，显著加快了响应速度。此外，由于过滤器是可插拔的，该框架天生支持可逆性。如图 2 (https://arxiv.org/html/2606.24113#S1.F2) 所示，当需要恢复遗忘的知识时，只需移除过滤器即可实现。总之，FedUP 提供了一个在精度、效率和可恢复性之间取得平衡的解决方案。

参见说明图 2：轻量级插件式过滤器。贡献。主要贡献如下：

- • 我们设计了 FedUP，一个利用 DP 保护类质心的单次 FU 框架，缓解非目标知识丢失，并将遗忘请求延迟从分钟级减少到秒级。
- • 我们提出了一种通过轻量级可插拔过滤器的可逆遗忘机制，无需更改原始模型参数，同时确保在遗忘状态和遗忘前状态之间快速转换。
- • 我们进行了差分隐私分析，表明适当的噪声在最小程度影响数据效用的同时保护了类质心样本。在图像和文本任务上的广泛实验证实了 FedUP 在多种场景下的有效性。

## 2 相关工作

机器遗忘。仅从存储中删除训练数据无法消除其对已部署模型的影响。因此引入了机器遗忘（MU）[Ma 等人 (2022)](https://arxiv.org/html/2606.24113#bib.bib72) 来擦除这种学习到的知识。现有方法分为精确遗忘 [Cao 等人 (2018)](https://arxiv.org/html/2606.24113#bib.bib13) 和近似遗忘 [Golatkar 等人 (2020)](https://arxiv.org/html/2606.24113#bib.bib15)。精确遗忘要求遗忘后的模型在统计上与从头开始重新训练且不包含被删除数据的模型不可区分。它保留了完全重训练的保证，但通过算法捷径降低了成本。对于经典模型，训练过程可以用可逆的加法形式表示，使得可以通过减去其闭式项来逐点移除 [Cao 等人 (2018)](https://arxiv.org/html/2606.24113#bib.bib13)。对于复杂架构，精确遗忘采用数据分片 [Bourtoule 等人 (2021)](https://arxiv.org/html/2606.24113#bib.bib17)、局部重训练 [Chen 等人 (2022)](https://arxiv.org/html/2606.24113#bib.bib18) 或中间检查点 [Wang 等人 (2023a)](https://arxiv.org/html/2606.24113#bib.bib19) 来减少计算量，同时保持重训练级别的保证。相比之下，近似遗忘用轻量级微调替代完全重训练，允许被删除数据存在有界的残余影响。相关工作通常分为数据驱动和模型驱动方法 [Nguyen 等人 (2025)](https://arxiv.org/html/2606.24113#bib.bib77)。数据驱动方法在微调前包括重新标记保留样本 [Graves 等人 (2021)](https://arxiv.org/html/2606.24113#bib.bib20) 或分割数据分片 [Gupta 等人 (2021)](https://arxiv.org/html/2606.24113#bib.bib21)。模型驱动方法通过影响函数 [Guo 等人 (2019)](https://arxiv.org/html/2606.24113#bib.bib22)、基于 Fisher 的正则化 [Golatkar 等人 (2020)](https://arxiv.org/html/2606.24113#bib.bib15) 或知识蒸馏 [Kurmanji 等人 (2023)](https://arxiv.org/html/2606.24113#bib.bib14) 直接调整参数，抵消要擦除数据的梯度贡献。

联邦遗忘。尽管联邦学习通过本地保留维护客户端隐私，但来自分布式数据集的知识仍存在于聚合的全局模型中。这需要将 MU 技术集成到 FL 中，称为联邦遗忘（FU）[Wang 等人 (2022)](https://arxiv.org/html/2606.24113#bib.bib23)。基于执行位置，FU 方法可分为服务器端和客户端端方法 [Liu 等人 (2024)](https://arxiv.org/html/2606.24113#bib.bib75); [Li 等人 (2025)](https://arxiv.org/html/2606.24113#bib.bib53)。服务器端方法本质上基于近似遗忘，在无需客户端参与的情况下抹除客户端贡献。FedEraser [Liu 等人 (2021)](https://arxiv.org/html/2606.24113#bib.bib24) 校准更新轨迹，但仍需要辅助重训练。相反，Wu 等人 [Wu 等人 (2022)](https://arxiv.org/html/2606.24113#bib.bib4) 通过减去历史更新并采用知识蒸馏来绕过客户端端计算。为优化效率，Huynh 等人 [Huynh 等人 (2025)](https://arxiv.org/html/2606.24113#bib.bib5) 利用选择性地保留有影响力的更新来减少内存开销，而 Pan 等人 [Pan 等人 (2025)](https://arxiv.org/html/2606.24113#bib.bib6) 通过正交最速下降解决参数冲突以加速遗忘过程。客户端端 FU 方法在本地执行遗忘，力求在平衡计算效率与全局模型效用的同时实现精确遗忘。Mora 等人 [Mora 等人 (2024)](https://arxiv.org/html/2606.24113#bib.bib78) 提出 FedUNRAN，利用本地随机标签扰动分散目标梯度并削弱其影响，无需服务器端干预。Wang 等人 [Wang 等人 (2023b)](https://arxiv.org/html/2606.24113#bib.bib7) 采用变分贝叶斯推理进行参数自共享，在保持性能的同时擦除目标数据。为加速遗忘，Liu 等人 [Liu 等人 (2022)](https://arxiv.org/html/2606.24113#bib.bib8) 通过对角经验 Fisher 信息矩阵近似 Hessian 矩阵进行拟牛顿优化，而 Zhu 等人 [Zhu 等人 (2023)](https://arxiv.org/html/2606.24113#bib.bib9) 将逆扰动与被动衰减结合，通过知识蒸馏传播更新。此外，Deng 等人 [Deng 等人 (2024)](https://arxiv.org/html/2606.24113#bib.bib79) 引入模型对比遗忘（MCU）来正则化特征空间。Zhong 等人 [Zhong 等人 (2025b)](https://arxiv.org/html/2606.24113#bib.bib10) 通过本地微调实现可逆遗忘。

总之，现有的遗忘方法通常在遗忘精度和计算效率之间进行权衡，且常常泛化性有限。此外，当前研究很少考虑可逆性。因此，在遗忘精度、效率和可逆性之间实现统一平衡仍然是一个开放挑战。

## 3 方法论

### 3.1 问题描述

在 FL 框架中，一组客户端记为 C={C1,C2,...,CN} 协同训练一个全局模型 MG，而不共享本地数据。每个客户端 Cn 使用其本地数据集 Dn 训练一个本地模型 Mn，并将模型参数上传到服务器。服务器基于数据集大小通过加权平均聚合这些本地模型以获得全局模型 MG。此过程迭代进行 W 轮全局轮次，其中每轮全局轮次包含客户端上的 e 个本地训练周期，使用本地学习率 lc。MG 在结构上分解为特征提取器 ME 和分类器 Mcl。聚合后，MG 被分发给所有客户端，其中特征提取器 ME 用于从本地数据中提取特征。此外，构造一个可插拔过滤器 MFi 以实现对需要遗忘的知识的过滤。整体数据集记为 D={Dn}_{n=1}^{N}，其中 Dn 表示客户端 Cn 的本地数据集。联邦内的总数据量为 ‖D‖=∑_{n=1}^{N}‖Dn‖。为便于数据管理，特别是未来的遗忘操作，每个本地数据集 Dn 被划分为两个不相交的子集：用于模型训练的保留子集 Dn^R，和指定被移除以遵守隐私或法规约束的遗忘子集 Dn^U。设 k∈{1,2,...,K} 为数据类别索引，其中 K 是类别总数。

在 FL 阶段，训练目标定义为：
min_{θ_MG} F(θ_MG) = ∑_{n=1}^{N} (|Dn|/|D|) ∑_{(x_i^k, y_i^k)∈Dn} L( f(x_i^k; θ_MG), y_i^k ),   (1)
其中 L 表示损失函数。在 FU 阶段，目标是在遗忘集上最大化损失，在保留集上最小化损失，并保持低训练成本，描述为：
min_{θ_MG'} F^R(θ_MG') = ∑_{n=1}^{N} (|Dn^R|/|D^R|) ∑_{(x_i^k, y_i^k)∈Dn^R} L( f(x_i^k; θ_MG'), y_i^k ),

FedUP: 基于质心引导的可插拔过滤器的一次性联邦遗忘

相似文章

协作优化中的因果遗忘：对抗性贡献下的精确与近似影响逆转

面向联邦长尾图学习：一种能量引导的双解耦方法

准确且资源高效的联邦持续学习

联邦学习

利用非对称数据进行遗忘：通过公共数据改善遗忘-效用权衡

提交意见反馈