SPACE: 无源代理锚点概念擦除用于多模态大语言模型

arXiv cs.LG 论文

摘要

本文介绍了SPACE,这是首个面向多模态大语言模型(MLLMs)的无源遗忘框架,它利用文本引导的代理锚点选择和双约束语义隔离来擦除目标概念,无需访问原始训练数据,实现了与依赖数据的方法相当的性能。

arXiv:2606.09868v1 Announce Type: new 摘要:随着多模态大语言模型(MLLMs)面临日益增长的隐私风险和监管约束,机器遗忘(MU)已成为一种关键解决方案,用于在保留模型性能的同时移除敏感数据。然而,现有的MU方法通常依赖目标概念的视觉数据,而由于严格的数据保留政策,这些数据往往不可用,因此需要能够在没有目标数据的情况下运行的无源遗忘方法。在这项工作中,我们提出了无源代理锚点概念擦除(SPACE),这是首个专门针对MLLMs的无源遗忘框架。SPACE包含两个阶段:(1)文本引导的代理锚点选择(TPAS),从共享特征空间中检索语义对齐的代理锚点。(2)双约束语义隔离(DCSI),优化这些锚点以间接擦除目标概念。DCSI将更新限制在保留知识的零空间中,确保结构完整性。我们从理论上证明,SPACE严格界定了对保留知识的扰动,并最大化特征谱熵,从而维持模型性能。此外,在六个数据集上的大量实验表明,SPACE达到了与最先进的依赖数据方法相当的性能,验证了其在无源MU场景中的有效性。源代码将会发布。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:14

# SPACE:面向多模态大语言模型的无源代理锚点概念擦除
来源:https://arxiv.org/html/2606.09868
丁嘉琪、魏千山、周楠、李佳琦、吴永亮、朱彤鑫、方晓琳

###### 摘要

随着多模态大语言模型(MLLMs)面临日益增长的隐私风险和监管约束,机器遗忘(MU)已成为一种关键解决方案,用于移除敏感数据同时保持模型性能。然而,现有的MU方法通常依赖于目标概念的视觉数据,这在严格的数据保留政策下往往无法获取,因此催生了无需访问目标数据的无源遗忘方法的需求。本文提出**无源代理锚点概念擦除**(SPACE),这是首个专为MLLMs设计的无源遗忘框架。SPACE包含两个阶段:(1) 文本引导的代理锚点选择(TPAS),从共享特征空间中检索语义对齐的代理锚点;(2) 双约束语义隔离(DCSI),优化这些锚点以间接擦除目标概念。DCSI将更新限制在保留知识的零空间中,确保结构完整性。我们从理论上证明SPACE严格限定了对保留知识的扰动,并最大化特征谱熵,从而维持模型性能。此外,在六个数据集上的广泛实验表明,SPACE的性能与最先进的数据依赖方法相当,验证了其在无源MU场景中的有效性。源代码将发布。

关键词:机器遗忘,多模态大语言模型,无源,隐私

* * *

参见图注图1:不同遗忘范式的比较。现有MU方法依赖私有目标图像,而当前的无源方法对MLLMs无效,SPACE实现了MLLMs中有效的无源概念遗忘。

## 1 引言

多模态大语言模型(MLLMs)通过大规模图文预训练取得了显著性能。然而,训练数据中不可避免存在的敏感私有信息带来了重大隐私风险。为解决这些问题,诸如《通用数据保护条例》(GDPR)(Voigt and Von dem Bussche,2017 (https://arxiv.org/html/2606.09868#bib.bib11))等法规明确规定了“被遗忘权”,要求在某些情况下删除个人数据。这推动了机器遗忘(MU)研究 (Jia et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib53); Gandikota et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib24); Yao et al., 2024a (https://arxiv.org/html/2606.09868#bib.bib54); Du et al., 2025b (https://arxiv.org/html/2606.09868#bib.bib47); Lu et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib25); Gao et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib46); Huo et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib3); Liu et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib50), 2025b (https://arxiv.org/html/2606.09868#bib.bib33), 2025a (https://arxiv.org/html/2606.09868#bib.bib39); Spartalis et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib51); Chen et al., 2025a (https://arxiv.org/html/2606.09868#bib.bib34); He et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib55)),其目标是在保留模型对保留任务的效用同时,遗忘特定的敏感数据。

现有的MU方法通常需要访问包含特定目标概念的图像。传统方法依赖大量此类图像进行优化 (Jang et al., 2023 (https://arxiv.org/html/2606.09868#bib.bib12); Zhang et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib13); Yao et al., 2024b (https://arxiv.org/html/2606.09868#bib.bib14)),而近期工作尝试在有限视觉数据下进行遗忘 (Li et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib15))。然而,在许多实际场景中,访问目标概念对应的视觉数据常常受到隐私法规、数据保留政策或安全约束的严格限制。这使得现有方法难以在高度敏感的应用中部署,凸显了无源遗忘(仅依赖原始模型和目标概念的文本描述)的迫切需求。然而,针对生成式多模态大语言模型(MLLMs)的无源遗忘尚未得到充分探索。现有方法主要针对传统图像分类器 (He et al., 2016 (https://arxiv.org/html/2606.09868#bib.bib28); Dosovitskiy et al., 2021 (https://arxiv.org/html/2606.09868#bib.bib29))。一些工作依赖于带过滤策略的无数据知识蒸馏 (Zhang et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib18)),而另一些则利用能量引导合成进行判别性特征对齐 (Wang et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib17))。这些方法与生成式MLLMs在结构上不兼容。与分类器不同,MLLMs基于视觉输入生成文本序列,导致图像与文本之间存在深度跨模态耦合。现有方法无法捕捉这种语义对齐,因此对MLLMs无效。

本文首次探索了无源遗忘在生成式多模态大语言模型(MLLMs)中的应用。如图1 (https://arxiv.org/html/2606.09868#S0.F1) 所示,我们的方法实现了无源场景下的有效遗忘。我们的方法灵感来源于MLLMs共享视觉-语言特征空间中密集的语义纠缠特性 (Kravets and Namboodiri, 2024 (https://arxiv.org/html/2606.09868#bib.bib6); Du et al., 2025a (https://arxiv.org/html/2606.09868#bib.bib8))。研究表明,语义相关的概念在此共享空间中紧密相连 (Papadimitriou et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib7)),因此对一个概念的更新会不可避免地影响其语义邻居。我们利用这一特性作为无源遗忘的桥梁。具体而言,我们不访问私有目标数据,而是优化语义相似的代理锚点,将目标概念拉入这些锚点的混淆区域,从而在不直接访问数据的情况下有效遗忘该概念。

基于这些观察,我们提出了**无源代理锚点概念擦除**(SPACE)。SPACE通过两个阶段实现有效且高效的无源遗忘:(1) **文本引导的代理锚点选择**(TPAS):为在无法访问私有数据的情况下准确定位目标概念,我们设计了一种粗到细的检索策略,利用MLLMs共享的视觉-语言特征空间。首先,我们使用大语言模型(LLM)对通用公开数据进行语义过滤 (Menon and Vondrick, 2023 (https://arxiv.org/html/2606.09868#bib.bib26); Pratt et al., 2023 (https://arxiv.org/html/2606.09868#bib.bib27)),选择与目标概念相关的候选图像。接着,我们应用跨模态对齐 (Yan et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib2); Papadimitriou et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib7)) 以识别与目标概念紧密匹配的代理锚点。TPAS仅使用目标概念的文本描述构建高质量代理数据,无需私有图像,同时确保高效检索。(2) **双约束语义隔离**(DCSI):获取代理锚点后,DCSI在这些锚点上执行梯度下降以擦除目标概念。然而,由于特征纠缠,直接更新会不可避免地影响语义相邻概念。为解决此问题,我们将更新限制在保留数据的零空间中,防止对无关知识造成意外损害。在此空间内,我们引入文本排斥损失以解耦代理视觉特征与目标文本,实现针对性遗忘。此外,我们强制特征各向同性以避免特征空间崩溃,从而保留保留知识的结构完整性。通过这种双约束机制,DCSI在有效遗忘目标概念与保持整体模型性能之间取得平衡。

我们从理论上验证了所提框架的可靠性,并通过实证实验进一步验证其有效性。具体而言,我们证明我们的方法可以约束保留干扰并最大化特征熵(定理3.1 (https://arxiv.org/html/2606.09868#S3.Thmtheorem1) 和3.2 (https://arxiv.org/html/2606.09868#S3.Thmtheorem2))。在六个数据集上的实验结果表明,SPACE实现了与数据依赖方法相当的遗忘性能。此外,在将无源基线方法ISPF适配到MLLM设置后,SPACE在所有评估指标上均优于它。我们的主要贡献总结如下:

- • 我们提出了SPACE,首个面向MLLMs的无源遗忘框架,利用语义对齐的代理锚点间接擦除目标概念,无需访问私有数据。
- • 为应对数据访问限制,我们设计了两阶段流程:TPAS从公开数据中检索语义匹配的代理锚点,DCSI对这些锚点进行约束优化以擦除目标概念,同时保持保留知识的完整性。
- • 在六个数据集上的实验表明,SPACE实现了与数据依赖方法相当的遗忘性能,验证了其在无源场景中的有效性。

参见图注图2:SPACE框架概览。(1) TPAS利用粗到细策略从公开数据中检索语义对齐的代理锚点。(2) DCSI通过语义排斥优化这些锚点以擦除目标概念,同时严格将更新限制在安全零空间中,并强制特征各向同性以保持模型的结构完整性。

## 2 相关工作

#### 多模态大语言模型中的机器遗忘。
早期方法采用全局优化策略,如参数空间上的梯度上升 (Jang et al., 2023 (https://arxiv.org/html/2606.09868#bib.bib12); Yao et al., 2024b (https://arxiv.org/html/2606.09868#bib.bib14); Zhang et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib13); Chen et al., 2025a (https://arxiv.org/html/2606.09868#bib.bib34); Li et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib48))。近期工作通过模态感知剪枝或影响性神经元路径编辑来操纵特定子空间 (Huo et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib3); Liu et al., 2025b (https://arxiv.org/html/2606.09868#bib.bib33); Li et al., 2026 (https://arxiv.org/html/2606.09868#bib.bib36); Gandikota et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib24); Lu et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib25)),同时还有努力最小化数据依赖 (Li et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib15); Kravets and Namboodiri, 2025 (https://arxiv.org/html/2606.09868#bib.bib1))。新兴的基准通过建立评估遗忘机制有效性和鲁棒性的协议,完善了评估格局 (Maini et al., 2024 (https://arxiv.org/html/2606.09868#bib.bib52); Xu et al., 2025a (https://arxiv.org/html/2606.09868#bib.bib10), b (https://arxiv.org/html/2606.09868#bib.bib38), c (https://arxiv.org/html/2606.09868#bib.bib43); Zheng et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib37); Liu et al., 2025a (https://arxiv.org/html/2606.09868#bib.bib39))。然而,对访问私有数据的依赖仍然是无源场景的瓶颈。

#### 无源遗忘。
为规避数据依赖,无源策略侧重于合成替代监督信号以近似训练分布。早期方法优化误差最大化的噪声模式以诱导遗忘 (Tarun et al., 2023 (https://arxiv.org/html/2606.09868#bib.bib40)),而高级框架采用无数据知识蒸馏,通过对抗性反转或能量引导合成来重构特征 (Chundawat et al., 2023 (https://arxiv.org/html/2606.09868#bib.bib41); Zhang et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib18); Wang et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib17); Ahmed et al., 2025 (https://arxiv.org/html/2606.09868#bib.bib45); Chen et al., 2025b (https://arxiv.org/html/2606.09868#bib.bib49))。这些范式通过利用连续特征对齐 (Radford et al., 2021 (https://arxiv.org/html/2606.09868#bib.bib42)),已在CLIP等判别性架构中展现出有效性。

## 3 方法

在本节中,我们定义了无源遗忘问题,并介绍了SPACE框架,如图2 (https://arxiv.org/html/2606.09868#S1.F2) 所示。我们首先在第3.2节 (https://arxiv.org/html/2606.09868#S3.SS2) 提出TPAS,用于从公开数据中检索代理锚点。随后,在第3.3节 (https://arxiv.org/html/2606.09868#S3.SS3) 介绍DCSI,利用这些锚点进行目标擦除,同时保留保持的知识。

### 3.1 预备知识

设 \( \mathcal{M}_\theta \) 为一个预训练的MLLM,在私有数据集 \( \mathcal{D}=\{(I_i,T_i)\}_{i=1}^N \) 上训练。给定要遗忘的目标概念 \( \mathcal{C} \),我们采用无源遗忘设置。具体而言,严格禁止访问任何包含目标概念 \( \mathcal{C} \) 的视觉数据。因此,遗忘过程必须仅依赖于预训练模型参数 \( \theta \) 和目标的文本描述 \( t_\mathcal{C} \)。我们将与目标概念 \( \mathcal{C} \) 对应的训练数据子集记为 \( \mathcal{D}_f \subset \mathcal{D} \)。要保留的剩余数据定义为 \( \mathcal{D}_r = \mathcal{D} \setminus \mathcal{D}_f \)。在我们的设置中,遗忘期间严格禁止访问 \( \mathcal{D}_f \) 中的视觉样本,或任何包含目标概念 \( \mathcal{C} \) 的视觉数据。唯一可访问的信息是:(1) 目标概念 \( \mathcal{C} \) 的文本描述 \( t_\mathcal{C} \)。(2) 通用概念的公开语料库 \( \mathcal{D}_\text{pub} \),作为检索池,但不显式包含 \( \mathcal{C} \)。目标是获得一个更新后的模型 \( \mathcal{M}_\hat{\theta} \),其行为近似于在 \( \mathcal{D}_r \) 上重新训练的模型。\( \mathcal{M}_\hat{\theta} \) 不再识别或生成与 \( \mathcal{C} \) 相关的内容。同时,\( \mathcal{M}_\hat{\theta} \) 保持对通用多模态任务及与 \( \mathcal{C} \) 无关的概念的性能。

### 3.2 文本引导的代理锚点选择(TPAS)

当无法直接访问目标视觉数据时,构建用于检索代理锚点的可靠数据集变得至关重要。简单的随机采样效果不佳,因为严重的语义错位无法激活目标特定的表示。为解决这一限制,我们提出了TPAS,一种粗到细的检索框架,旨在识别与目标概念语义对齐的代理锚点。

#### 粗粒度语义注册表过滤。
我们从覆盖广泛通用概念的大规模公开数据集 \( \mathcal{D}_{pub} = \{x_i\}_{i=1}^N \) 开始。我们不执行计算昂贵的视觉级扫描,而是利用大语言模型(LLM)的语义推理能力进行初始的基于文本的过滤阶段。具体而言,我们定义一个选择函数,评估候选图像与目标概念之间的语义相关性。

相似文章

原生可遗忘的大语言模型

arXiv cs.LG

该论文提出了NULLs(原生可遗忘的大语言模型),这是一种模型类别,它将特定来源的贡献隔离到稀疏激活的sinks中,同时共享骨干神经元,从而无需重新训练即可干净地遗忘单个数据源,并保持通用语言能力。

基于边际自校正的大规模快速遗忘

arXiv cs.LG

介绍了MASC(边际自校正),一种用于大型语言模型的高效遗忘方法,采用在线停止规则,以降低的计算成本实现有竞争力的遗忘-保持权衡,并在TOFU和MUSE基准上得到验证。

MLUBench: 多模态大语言模型终身遗忘评估基准

arXiv cs.AI

MLUBench 是一个大规模的多模态大语言模型终身遗忘基准,包含9个类别的127个实体。论文指出现有遗忘方法存在累积退化问题,并提出 LUMoE 来缓解此问题,显示出显著改进。