MAAT: 多阶段适配器感知定向遗忘
摘要
本文指出了机器遗忘基准中的一个盲点:因果类(Why型)知识的代表性不足,并提出了5WBench(一个均衡的基准)和Maat(一个基于LoRA适配器的三阶段遗忘框架),该框架在因果事实的遗忘与保留方面均表现优异。
arXiv:2605.30514v1 公告类型:新提交
摘要:机器遗忘评估存在结构性偏见:Why型问题(探究因果和关系知识)在CounterFact中占比不到0.06%,在ZSRE中占比0.6%,在TOFU、MUSE和WMDP-Cyber中占比不到1.3%。这种近乎为零的代表性意味着,在因果知识上失败的方法在整体上仍可获得高分,且在没有均衡评估的情况下,这种失败是无法检测的。我们提出了5WBENCH,这是一个均衡的5000样本基准,每个5W类别(Who、What、When、Where、Why)包含1000个示例,首次使因果遗忘失败变得可量化。利用5WBENCH,我们表明现有的基线方法都无法同时在Why型问题上实现高遗忘和高保留:激进的遗忘会损害保留知识,而保守的方法则无法遗忘因果事实。Why型问题的难度源于多跳推理链(Why条目中占44%,其他类别不超过2%)以及超过40.1个token的答案跨度导致的梯度稀释。我们提出了MAAT(多阶段适配器感知定向遗忘),这是一个基于LoRA适配器权重的三阶段框架,结合了梯度投影上升、SVD秩维度剪枝、任务向量求反以及混合KL-隐藏状态保留修复。MAAT是首个在Why型因果知识上同时实现高遗忘和高保留的方法,在遗忘-保留帕累托前沿上达到了新的工作点。我们公开了代码。
查看缓存全文
缓存时间: 2026/06/01 09:25
# Maat: 多阶段适配器感知的定向遗忘
源: https://arxiv.org/html/2605.30514
Shubham Gaur², Saksham Thakur³, Vinija Jain⁴, Aman Chadha⁴, Amitava Das⁵
¹印度博帕尔信息技术学院, ²加州大学圣克鲁兹分校, ³独立研究员, ⁴斯坦福大学, ⁵印度比拉技术与科学学院皮拉尼校区
###### 摘要
机器遗忘评估在结构上存在偏差:Why类问题(探究因果和关系知识)在 CounterFact 中占比不到 0.06%,在 ZSRE 中占比 0.6%,在 TOFU、MUSE 和 WMDP-Cyber 中占比不到 1.3%。这种近乎为零的表示意味着,在因果知识上失败的方法可能在聚合指标上得分很高,而这种失败在没有均衡评估的情况下是无法检测到的。我们提出了 **5WBench**,一个均衡的 5,000 样本基准,其中每个 5W 类别(Who、What、When、Where、Why)各有 1,000 个样本,首次使得因果遗忘失败可以被量化。使用 5WBench,我们发现没有现有的基线方法能够同时在 Why 类问题上实现高遗忘和高保留:激进的遗忘会损害保留知识,而保守的方法则无法遗忘因果事实。Why 类问题的难度源于多跳推理链(Why 条目中 44% 是多跳,而其他类别 ≤2%)以及超过 40.1 个 token 的答案跨度上的梯度稀释。我们提出了 **Maat**(多阶段适配器感知的定向遗忘),这是一个三阶段框架,直接对 LoRA 适配器权重进行操作,结合了梯度投影上升、SVD 秩维度剪枝、任务向量抵消以及混合 KL-隐藏状态保留修复。Maat 是第一个在 Why 类因果知识上同时实现高遗忘和高保留的方法,在遗忘-保留帕累托前沿上达到了新的运行点。我们公开了代码 (https://github.com/SuryanshYagnik/Machine-Unlearning)。
## 1 引言
每个主要的机器遗忘基准都存在一个结构性盲点:因果知识。Why 类问题——探究支撑事实性知识的关系和因果链——在 CounterFact 中占比不到 0.06%,在 ZSRE 中占 0.6%,在 TOFU 中占 1.2%,在 MUSE 中占 0.5%,在 WMDP-Cyber 中占 1.2%(表 1 (https://arxiv.org/html/2605.30514#S3.T1))。这不是单个基准的疏忽,而是这些数据集构建方式的系统性问题:它们都源自以实体为中心的知识图谱和关系抽取语料库,这些语料库天然地低估了因果和关系知识。其后果是一个关键的测量缺口:任何在因果知识上失败的遗忘方法都可能在聚合指标上获得高分,而这种失败在没有均衡评估的情况下在统计上是不可检测的。
#### 为什么因果知识抗拒遗忘。
这个缺口不仅仅是数量上的——因果事实在质量上更难遗忘。Why 类答案平均长度为 40.1 个 token,而其他类别为 4.2–10.5 个 token;44% 涉及多跳推理链,而其他类别 ≤2%(表 7 (https://arxiv.org/html/2605.30514#A3.T7))。这些特性导致了严重的梯度稀释:上升信号分布在长 token 跨度上,没有明显的主导方向可供瞄准。关键是,我们的编码分析(附录 F (https://arxiv.org/html/2605.30514#A6))表明,这不是因为 Why 类事实的编码方式不同——所有 5W 类别在各层中都具有均匀的分布式编码。困难在于关系复杂性和梯度稀释,而不是独特的权重空间足迹。
#### Maat 框架。
我们引入了 **Maat**,一个三阶段遗忘框架,直接对 LoRA 适配器权重进行操作,而无需将其合并到基础模型中。Maat 不是施加均匀的梯度压力,而是执行结构化的适配器手术:(1)梯度投影,仅在遗忘和保留梯度冲突时正交化遗忘更新;(2a)基于 SVD 的多层感知机 (MLP) 适配器维度剪枝,将遗忘信号集中在被遗忘集输入特别激活的秩分量上;(2b)对 top-k F_k 遗忘评分秩维度进行任务向量抵消;(3)混合 KL-隐藏状态保留修复,其中熵项防止修复阶段重新学习遗忘的内容。在使用 Qwen 2.5-7B (Yang et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib18)) 和 LLM-as-a-Judge 评估下,Maat 是第一个在 Why 类因果知识上同时实现高遗忘和高保留的方法——这是所有基线都无法达到的遗忘-保留帕累托前沿上的新运行点。
#### 贡献。
1. **5WBench**:一个均衡的 5,000 样本基准,每个 5W 问题类别(Who、What、When、Where、Why)各有 1,000 个样本,通过结构化的分类覆盖暴露了现有遗忘评估中的因果知识缺口。
2. **Maat**:一个三阶段结构化 LoRA 适配器遗忘框架,在 Why 类因果知识上实现了新的遗忘-保留运行点,在 Llama 3.2-3B 和 Gemma 3-4B 上的聚合遗忘-保留权衡中均优于所有基线。
## 2 相关工作
#### 基于梯度和基于偏好的遗忘。
LLM 遗忘的主流范式是直接在遗忘集上应用梯度上升 (GA) 以最大化目标事实的损失。KL 正则化 GA (Yao et al., 2023 (https://arxiv.org/html/2605.30514#bib.bib2)) 增加了一个与原始模型在保留样本上的输出的散度惩罚,而梯度差 (Liu et al., 2022 (https://arxiv.org/html/2605.30514#bib.bib3)) 结合了遗忘损失最大化和保留损失最小化。所有基于梯度的方法的一个常见失败模式是,激进的遗忘会损害模型的实用性,而保守的步骤则导致遗忘不足——尤其是在梯度信号分散的长因果跨度上。最近,遗忘被重新定义为偏好对齐问题:负偏好优化 (NPO) (Zhang et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib22)) 将遗忘数据视为被拒绝的分布,应用 DPO 风格的目标而无需正样本;SimNPO (Fan et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib35)) 完全消除了参考模型偏差,提高了对重新学习攻击的鲁棒性 (Hu et al., 2025 (https://arxiv.org/html/2605.30514#bib.bib36))。尽管有这些进展,但这些方法都没有考虑适配器权重空间的内部结构或保留流形的几何形状。
#### 定位、权重显著性和结构化编辑。
另一条研究线是识别并针对与遗忘目标相关的特定权重子空间。秩一模型编辑 (ROME) (Meng et al., 2022a (https://arxiv.org/html/2605.30514#bib.bib5)) 和 Transformer 中的批量编辑记忆 (MEMIT) (Meng et al., 2022b (https://arxiv.org/html/2605.30514#bib.bib6)) 通过因果追踪将事实关联定位在中层 MLP 权重中,并应用秩一或分布式更新。AlphaEdit (Fang et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib7)) 通过将更新投影到保留知识协方差的零空间中来提高特异性——这是 Maat 梯度投影阶段的概念前身。SalUn (Fan et al., 2023 (https://arxiv.org/html/2605.30514#bib.bib23)) 将更新限制在遗忘集上具有最高梯度幅度显著性的权重上,为遗忘提供了第一个原则性的权重选择机制。机制性遗忘 (Guo et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib24)) 使用路径修补通过电路级定位来识别并微调仅与事实查找相关的组件,产生对对抗性探针鲁棒的编辑。所有基于定位的方法都假设目标知识存储在可识别、局部化的位置——我们的编码分析(附录 F (https://arxiv.org/html/2605.30514#A6))表明,这一假设无法区分 Why 类和其他类别;挑战在于关系复杂性和梯度稀释,而不是独特的编码足迹。
#### 基于表示和适配器感知的方法。
用于遗忘的表示误导 (RMU) (Li et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib31)) 将遗忘输入的中间激活引导到随机方向,同时保留表示,在 WMDP 上取得了最先进成果。断路器 (Zou et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib25)) 通过 LoRA (Hu et al., 2022 (https://arxiv.org/html/2605.30514#bib.bib1)) 适配器将有害表示重定向为与原始隐藏状态正交,在对抗性攻击下提供了强大的鲁棒性。在参数高效方面,LUNE (Cha et al., 2025 (https://arxiv.org/html/2605.30514#bib.bib26)) 在负例上微调 LoRA 适配器以覆盖目标知识,KGA (Wang et al., 2023a (https://arxiv.org/html/2605.30514#bib.bib21)) 对齐两个参考模型之间的知识差距。LoKU 和 FILA (Cha et al., 2025 (https://arxiv.org/html/2605.30514#bib.bib26)) 应用 Fisher 信息将与遗忘相关的参数隔离到 LoRA 适配器中,提供了与 Maat 最接近的现有 Fisher 引导适配器遗忘处理。任务向量抵消 (Ilharco et al., 2022 (https://arxiv.org/html/2605.30514#bib.bib4)) 计算 τ = θ_ft - θ_base 并减去它以实现近似遗忘——这是 Maat 阶段 2b 的概念基础,但 Maat 将其细化,仅针对 top-k F_k 遗忘评分秩维度,而非整个适配器增量。Maat 与上述所有方法的不同之处在于,它将 LoRA 矩阵视为结构化空间,其中秩维度可以通过 SVD 显式评分、选择性剪枝和抵消——无需构造负例或完全替换适配器。
#### 二阶和几何感知方法。
自然梯度下降 (Amari, 1998 (https://arxiv.org/html/2605.30514#bib.bib8)) 用逆 Fisher 信息矩阵对更新进行预处理,产生参数空间几何感知的更新。选择性突触抑制 (SSD) (Foster et al., 2023 (https://arxiv.org/html/2605.30514#bib.bib27)) 使用训练和遗忘分布之间的 Fisher 信息矩阵比率来抑制遗忘特定参数,无需重新训练。SOUL (Jia et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib28)) 建立了二阶优化与影响函数遗忘之间的联系,应用基于 Sophia 的 Hessian 更新作为现有遗忘目标的即插即用优化器替代品,在 TOFU (Maini et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib10)) 上持续优于一阶方法。Maat 与 SOUL (Jia et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib28)) 的不同之处在于,它使用一阶梯度投影结合 SVD 秩 (Zhang, 2015 (https://arxiv.org/html/2605.30514#bib.bib37)) 评分来实现结构抑制——绕过完整的 Hessian 近似,同时直接针对适配器的遗忘子空间。
#### 基准与评估。
ZSRE (Levy et al., 2017 (https://arxiv.org/html/2605.30514#bib.bib29)) 和 CounterFact (Hua et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib30)) 主导着模型编辑评估,但它们源自以实体为中心的 Wikidata 三元组,因此 Why 类覆盖率近乎为零(<1%)。TOFU (Maini et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib10)) 提供了干净的虚构事实遗忘划分,但没有结构化的问题分类体系,且以 What 类传记属性为主(84.7%)。WMDP (Li et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib31)) 针对有害能力抑制;MUSE (Shi et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib13)) 评估包括隐私泄露和可持续性在内的六个遗忘愿望;RWKU (Jin et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib34)) 提供零样本真实世界实体遗忘与对抗性探针。没有一个提供均衡的因果 Why 类覆盖。
最近的工作进一步质疑了基准的可靠性 (Thaker et al., 2024 (https://arxiv.org/html/2605.30514#bib.bib33); Hu et al., 2025 (https://arxiv.org/html/2605.30514#bib.bib36); Dorna et al., 2025 (https://arxiv.org/html/2605.30514#bib.bib32)):基准修改暴露了残留的可访问信息,在小辅助数据集上的微调逆转了所谓已遗忘的知识。
5WBench 直接解决了因果覆盖缺口,提供了 1,000 个均衡的 Why 类样本——首次使得因果知识上的系统性失败可以被量化。
## 3 5WBench 基准
表 1: 模型编辑和遗忘基准中的标签分布 (%)。Why 类覆盖率(红色)在所有现有数据集中近乎为零;5WBench(绿色)在所有类别中提供均衡的 20% 划分。表 2: 5WBench 代表性样本(what 类,遗忘划分)。pred_answer 作为模型编辑的目标答案。
### 3.1 数据集构建
5WBench 源自 Factify-5WQA 语料库 (Rani et al., 2023 (https://arxiv.org/html/2605.30514#bib.bib14)),这是一个具有结构化 5W 问答标注的多文档事实验证数据集。构建分为四个步骤:(1)**主语提取**。Stanford CoreNLP 依存句法分析 (Manning et al., 2014 (https://arxiv.org/html/2605.30514#bib.bib41)) 提取主要主语实体,该实体成为编辑目标。(2)**分层采样**。我们针对每个 5W 标签精确采样 1,000 个样本,在每个类别内均匀抽取。Factify-5WQA (Rani et al., 2023 (https://arxiv.org/html/2605.30514#bib.bib14)) 拥有足够的 Why 类条目——这是 ZSRE 或 CounterFact 所不具备的特性。(3)**遗忘/保留划分**。每个标签的 1,000 个样本被均分:500 个用于遗忘,500 个用于保留。评估使用每个标签、每个划分各 100 个样本(总共 500 个遗忘 + 500 个保留),通过分层确保 5W 表示均衡。(4)**格式标准化**。每个样本被格式化为 (question, answer, label, rephrases) 元组,兼容 EasyEdit (Wang et al., 2023b (https://arxiv.org/html/2605.30514#bib.bib15))。标签反映所查询关系的**语义类型**,而非表面的疑问词。
#### 样本格式。
每个 5WBench 记录是一个 JSON 对象,包含问题、真实答案、5W 标签以及最多三个改写的问题变体(用于测试编辑方法对表面形式变化的鲁棒性)。表 2 (https://arxiv.org/html/2605.30514#S3.T2) 显示了一个来自遗忘划分的具代表性的 what 类实例,源自 ZSRE 源。
### 3.2 Why 类事实在结构上是不同的
Why 类事实编码了因果和关系链(例如,“吸烟导致肺癌,因为它将致癌物引入肺组织”)。答案跨度平均为 40.1 个 token,而其他类型为 4.2–10.5 个 token;且高达 44% 涉及多跳推理链(表 7 (https://arxiv.org/html/2605.30514#A3.T7),附录 C (https://arxiv.org/html/2605.30514#A3))。这种复杂性意味着在长 token 跨度上的梯度上升无法产生连贯的遗忘信号。5WBench 提供了足够的 Why 类样本来研究和量化这一失败模式,这是首次。
## 4 Maat 框架
请参阅图注图 1:Maat(多阶段适配器感知的定向遗忘)架构概述。Maat 通过对 LoRA 适配器参数空间的结构进行操作来解决遗忘挑战(图 1 (https://arxiv.org/html/2605.30514#S4.F1))。所有三个阶段都仅作用于适配器矩阵 {A_l, B_l},即低秩矩阵。三个阶段分别为:(1) 梯度投影,(2) SVD 剪枝与任务向量抵消,(3) 混合 KL-隐藏状态保留修复。详见正文。相似文章
干扰感知的多任务机器遗忘
本文介绍了一种干扰感知的多任务机器遗忘框架,通过任务感知的梯度投影和实例级别的梯度正交化来解决任务级和实例级干扰,在多任务计算机视觉基准上实现了有效的遗忘。
模型遗忘目标因语言功能不同而异
本文认为,LLM中的遗忘应依赖于目标,提出了一种基于余弦的元学习RMU变体用于危险知识遗忘,以及一种结合探针方向的多层目标用于毒性遗忘,在四个7-8B模型上取得了显著效果。
利用非对称数据进行遗忘:通过公共数据改善遗忘-效用权衡
本文介绍了非对称朗之万遗忘(ALU),这是一种利用公共数据来改善机器遗忘中隐私-效用权衡的框架。研究表明,ALU 降低了遗忘成本,并在保持高模型效用的同时实现了大规模遗忘。
基于边际自校正的大规模快速遗忘
介绍了MASC(边际自校正),一种用于大型语言模型的高效遗忘方法,采用在线停止规则,以降低的计算成本实现有竞争力的遗忘-保持权衡,并在TOFU和MUSE基准上得到验证。
智慧在于知道何时沉默:通过注意力转移实现无幻觉的大语言模型遗忘
本论文引入注意力转移(Attention-Shifting, AS)框架,用于大语言模型的选择性机器遗忘,在有效移除敏感信息与防止幻觉和保持模型性能之间取得平衡。该方法采用重要性感知的注意力抑制和保留增强机制,在标准基准上相比现有遗忘方法实现了高达15%的准确度保持率提升。