干扰感知的多任务机器遗忘
摘要
本文介绍了一种干扰感知的多任务机器遗忘框架,通过任务感知的梯度投影和实例级别的梯度正交化来解决任务级和实例级干扰,在多任务计算机视觉基准上实现了有效的遗忘。
arXiv:2605.19042v1 Announce Type: new
摘要:机器遗忘旨在从训练好的模型中移除指定训练数据的贡献,同时保留对剩余数据的性能。现有工作主要集中于单任务设置,而现代模型通常采用具有共享骨干的多任务架构,此时移除某个任务或实例的监督可能会无意中影响其他任务。我们引入了两种设置下的多任务遗忘:全任务遗忘(从所有任务中移除目标实例)和部分任务遗忘(仅从选定任务中移除监督)。我们发现共享参数将遗忘集和保留集耦合在一起,导致对非目标任务的任务级干扰以及其他实例上的实例级干扰。为解决此问题,我们提出了一种干扰感知框架,将任务感知的梯度投影(将更新限制在任务特定子空间内)与实例级梯度正交化(减少遗忘和保留信号之间的冲突)相结合。在两个多任务计算机视觉基准上的五个任务进行的实验表明,我们的方法在保持强泛化能力的同时实现了有效的遗忘,在全任务遗忘和部分任务遗忘中,与最强基线相比,UIS 分别降低了 30.3% 和 52.9%。
查看缓存全文
缓存时间: 2026/05/20 08:27
# 干扰感知的多任务遗忘学习
来源:https://arxiv.org/html/2605.19042
Ying\-Hua Huang 国立台湾大学 yhhuang@arbor\.ee\.ntu\.edu\.tw Rui Fang 国立台湾大学 rfang@arbor\.ee\.ntu\.edu\.tw Hsi\-Wen Chen 国立台湾大学 hwchen@arbor\.ee\.ntu\.edu\.tw Ming\-Syan Chen 国立台湾大学 mschen@ntu\.edu\.tw
###### 摘要
机器遗忘旨在从已训练模型中移除指定训练数据的影响,同时保持对剩余数据的性能。现有工作主要关注单任务场景,而现代模型通常运行在具有共享主干的多任务设置中,此时移除一个任务或实例的监督可能会无意中影响其他任务。我们提出了**多任务遗忘学习**,包含两种设置:**全任务遗忘**,即从所有任务中移除目标实例;以及**部分任务遗忘**,即仅从选定任务中移除监督。我们表明,共享参数耦合了遗忘集与保留集,导致对非目标任务产生**任务级干扰**,并对其他实例产生**实例级干扰**。为解决此问题,我们提出了一种干扰感知框架,该框架结合了**任务感知梯度投影**(将更新限制在任务特定子空间内)和**实例级梯度正交化**(减少遗忘信号与保留信号之间的冲突)。在两个多任务计算机视觉基准数据集上的五个任务实验中,我们的方法在实现有效遗忘的同时保持了强大的泛化能力,与最强基线相比,在全任务遗忘中UIS降低了30.3%,在部分任务遗忘中降低了52.9%。
## 1 引言
机器遗忘[4 (https://arxiv.org/html/2605.19042#bib.bib4)]已变得越来越重要,因为现代机器学习系统需要从训练模型中移除敏感或过时的信息。这一需求源于隐私法规,如《通用数据保护条例》(GDPR)[46 (https://arxiv.org/html/2605.19042#bib.bib86)],以及更广泛的安全[25 (https://arxiv.org/html/2605.19042#bib.bib17)]、公平[70 (https://arxiv.org/html/2605.19042#bib.bib18)]和鲁棒性[45 (https://arxiv.org/html/2605.19042#bib.bib15)]方面的考虑。除了监管要求,机器遗忘还支持诸如去偏[8 (https://arxiv.org/html/2605.19042#bib.bib19)]、调试[55 (https://arxiv.org/html/2605.19042#bib.bib20)]和审计[59 (https://arxiv.org/html/2605.19042#bib.bib16)]等实际应用。机器遗忘将训练数据划分为两个子集:**遗忘集**,其影响应被移除;以及**保留集**,其性能应被保持。目标是消除遗忘集的影响,同时保持保留集上的性能。
理想情况下,遗忘应与在保留集上重新训练相匹配[3 (https://arxiv.org/html/2605.19042#bib.bib1)]。然而,对于大型模型,从头开始重新训练计算成本高昂,这促使了高效遗忘方法的研究[22 (https://arxiv.org/html/2605.19042#bib.bib21),23 (https://arxiv.org/html/2605.19042#bib.bib23),21 (https://arxiv.org/html/2605.19042#bib.bib24),14 (https://arxiv.org/html/2605.19042#bib.bib30),6 (https://arxiv.org/html/2605.19042#bib.bib31)]。现有方法主要集中在**单任务**设置上,而现代模型通常建立在预训练主干上,并通过共享表示[42 (https://arxiv.org/html/2605.19042#bib.bib34),37 (https://arxiv.org/html/2605.19042#bib.bib33)]或参数高效适配器[27 (https://arxiv.org/html/2605.19042#bib.bib35),62 (https://arxiv.org/html/2605.19042#bib.bib37),1 (https://arxiv.org/html/2605.19042#bib.bib38)]适应多个任务。在此类多任务设置中,移除一个任务的监督可能会无意中影响其他任务,从而引入单任务遗忘中不存在的挑战。
因此,我们提出了**多任务遗忘学习**问题,其中单个输入实例可能与多个任务相关联。如图1 (https://arxiv.org/html/2605.19042#S1.F1)所示,我们考虑两种互补的设置:**全任务遗忘**,即从所有任务中移除目标实例;以及**部分任务遗忘**,即仅从选定任务中移除目标实例的监督。例如,一张图像可能因隐私要求需要从人物识别[11 (https://arxiv.org/html/2605.19042#bib.bib14)]中移除,同时保留用于动作识别[29 (https://arxiv.org/html/2605.19042#bib.bib13)]。类似地,一个用户的交互可能需要从个性化推荐[31 (https://arxiv.org/html/2605.19042#bib.bib11)]中移除,同时保留用于欺诈检测[16 (https://arxiv.org/html/2605.19042#bib.bib3)]。
然而,我们的初步实验表明,直接将单任务遗忘方法应用于多任务模型会导致显著的性能下降,保留集性能最多下降25%。我们将这种退化归因于遗忘集与保留数据之间通过共享参数产生的交互。这些交互引入了两种类型的干扰:**任务级干扰**,其中遗忘影响目标集之外的任务;以及**实例级干扰**,其中遗忘目标实例会降低其他实例上的性能。
基于这些观察,我们提出了一种多任务遗忘框架,该框架在保持保留数据性能的同时减轻任务间的干扰。¹ 我们的框架包含两个关键组件,如图1 (https://arxiv.org/html/2605.19042#S1.F1)右侧面板所示。首先,**任务感知梯度投影**将参数更新限制在任务特定的子空间内,减少共享表示中无意的干扰。其次,**实例级梯度正交化**移除遗忘梯度与保留梯度之间的冲突分量,防止保留实例上的性能退化。这些组件共同通过子空间约束和冲突感知更新来缓解任务级和实例级干扰。
¹另一种方案是使用任务特定适配器并移除相应模块以实现遗忘。然而,这不能保证完全遗忘,因为任务信息可能仍保留在共享主干中。此外,随着任务数量增加,维护独立的适配器成本高昂。
我们的贡献总结如下。**首先**,我们引入了具有两种设置的多任务遗忘问题:全任务遗忘和部分任务遗忘,为隐私和效用提供了对数据移除的细粒度控制。**其次**,我们识别出任务级和实例级干扰是性能退化的两个来源,并提出了一个干扰感知框架,结合了任务感知梯度投影和实例级梯度正交化来缓解它们。**最后**,在两个基准数据集的五个任务上,我们的方法优于六个基线,在全任务遗忘中将UIS降低了30.3%,在部分任务遗忘中降低了52.9%,同时保持了保留性能。
参考图注图 1:多任务遗忘概述。
## 2 问题形式化
在本文中,我们研究共享主干上的多任务遗忘,其中每个实例包含多个任务的监督。附录A (https://arxiv.org/html/2605.19042#A1)总结了关键符号。
##### 多任务学习。
设X={xi}i=1N表示输入实例集,其中xi∈Rd,设T={1,2,...,K}表示任务集。对于每个实例xi∈X和任务t∈T,令yi(t)表示任务t在xi上的监督信号。多任务数据集为D={(xi,t,yi(t))∣xi∈X,t∈T}。因此,实例xi在任务t上的损失为
li,t(θ):=lt(ft(xi;θ),yi(t)), (1) 其中lt是任务特定损失,ft(⋅;θ)是任务t的预测器,θ表示共享模型参数。那么,多任务学习旨在优化
θ⋆=arg minθ ∑xi∈X ∑t∈T λt li,t(θ), (2) 其中λt是任务t的权重。由于所有任务通过共享参数θ⋆学习,来自一个任务-实例对的监督会影响其他任务使用的表示,使得学习和随后的遗忘都更具挑战性。
##### 多任务遗忘。
设Xf⊆X表示要遗忘的实例集,Tf⊆T表示应移除监督的任务集。保留实例集和保留任务集分别定义为Xr=X∖Xf和Tr=T∖Tf。
这两个轴导致了数据集的以下四个划分:
Df = {(xi,t,yi(t)) ∣ xi∈Xf, t∈Tf}, Drtask = {(xi,t,yi(t)) ∣ xi∈Xf, t∈Tr}, (3) Drinst = {(xi,t,yi(t)) ∣ xi∈Xr, t∈Tf}, Drclean = {(xi,t,yi(t)) ∣ xi∈Xr, t∈Tr}。
这里,Df是遗忘集,包含遗忘实例在遗忘任务上的监督。其余三个子集是保留的:Drtask保留遗忘实例在保留任务上的监督,Drinst保留保留实例在遗忘任务上的监督,Drclean保留保留实例在保留任务上的监督。因此,保留集变为
Dr = D∖Df = Drtask ∪ Drinst ∪ Drclean。 (4) 目标是从θ⋆中移除Df的影响,同时保持Dr上的性能。
基于此形式化,我们考虑多任务遗忘的两种实际场景。当Tf=T时,与目标实例相关的所有监督在所有任务上被移除,我们称之为**全任务遗忘**。当Tf⊊T时,仅移除任务子集的监督,我们称之为**部分任务遗忘**。这种形式化提供了细粒度控制,允许一个实例在选定任务上被遗忘,而在其他任务上保留。²
²本文专注于移除选定实例的监督,另一种可能的设置是移除所有实例上某个任务的监督,即Xf=X,导致模型完全遗忘该任务能力。
## 3 理论动机:多任务遗忘中的干扰
多任务设置中的遗忘尤其具有挑战性,因为从Df移除监督可能通过共享模型参数无意中影响保留的监督。具体来说,**任务级干扰**在遗忘导致Drtask(其中遗忘实例仍应为非目标任务保留)性能下降时出现。相反,**实例级干扰**在遗忘导致Drinst(其中其他保留实例仍应为目标任务保留)性能下降时出现。
为了正式刻画由遗忘引起的干扰,我们定义保留集和遗忘集上的经验损失为
Lr(θ) = 1/|Dr| ∑_{(xi,t,yi(t))∈Dr} li,t(θ), Lf(θ) = 1/|Df| ∑_{(xi,t,yi(t))∈Df} li,t(θ)。 (5)
然后我们分析重训练模型θr,该模型代表通过遗忘Df并在Dr上重训练获得的理想解。
###### 定理 1。
假设Lr和Lf是二次可微的,Hr:=∇²Lr(θr)是可逆的,且|Dr|≫|Df|。令ρ:=|Df|/|Dr|,并假设θ⋆局部最小化Lr(θ)+ρLf(θ)。那么,移除Df会导致任何保留任务-实例对(xi,t,yi(t))∈Dr的损失变化如下:
li,t(θr)−li,t(θ⋆) = ρ ∇li,t(θr)⊤ Hr^{-1} ∇Lf(θr) + O(ρ²)。
定理1 (https://arxiv.org/html/2605.19042#Thmtheorem1)表明,多任务遗忘中的联合干扰源于遗忘集与保留数据之间通过Hessian预条件梯度耦合。移除Df会导致由Hr^{-1}控制的参数偏移,反映了保留损失的局部曲率。由于|Dr|≫|Df|意味着ρ≪1,高阶项O(ρ²)变得可忽略,一阶项捕获了干扰的主要来源。
这些观察立即得出以下推论。
###### 推论 1。
任务级和实例级干扰分别对应于Drtask和Drinst上的聚合,且两者均受定理1 (https://arxiv.org/html/2605.19042#Thmtheorem1)中相同的一阶项控制。
推论1 (https://arxiv.org/html/2605.19042#Thmcorollary1)表明,相同的一阶项沿着两个轴控制两种形式的干扰。在Drtask上的聚合捕获了遗忘如何影响保留任务上的遗忘实例,对应于任务级干扰。相似文章
MAAT: 多阶段适配器感知定向遗忘
本文指出了机器遗忘基准中的一个盲点:因果类(Why型)知识的代表性不足,并提出了5WBench(一个均衡的基准)和Maat(一个基于LoRA适配器的三阶段遗忘框架),该框架在因果事实的遗忘与保留方面均表现优异。
协作优化中的因果遗忘:对抗性贡献下的精确与近似影响逆转
介绍了HF-KCU,一种联邦学习中高效机器遗忘的方法,利用Krylov子空间近似移除客户端的贡献,在保持模型精度的同时实现比重新训练显著的加速,并对对抗扰动提供鲁棒性。
分解大语言模型的基本能力:在多任务指令微调中缓解跨任务干扰
本文提出Badit方法,将大语言模型参数分解为正交的高奇异值LoRA专家,以在多任务指令微调中缓解跨任务干扰。
利用非对称数据进行遗忘:通过公共数据改善遗忘-效用权衡
本文介绍了非对称朗之万遗忘(ALU),这是一种利用公共数据来改善机器遗忘中隐私-效用权衡的框架。研究表明,ALU 降低了遗忘成本,并在保持高模型效用的同时实现了大规模遗忘。
ASRU:激活引导与强化遗忘在多模态大语言模型中的应用
提出了ASRU,一个可控的多模态遗忘框架,它结合激活引导与强化学习奖励函数,以提高遗忘效果和生成质量,同时在Qwen3-VL上保持模型效用。