RepSelect：通过表示选择性实现稳健的LLM遗忘

arXiv cs.CL 2026/06/17 04:00 论文

llm-unlearning machine-unlearning robustness representation-selectivity ai-safety fine-tuning

摘要

RepSelect提出了一种稳健的LLM遗忘方法，通过压缩权重梯度的前主成分来隔离遗忘集特定的表示，在多种模型家族上相比现有基线实现了4-50倍更好的对抗重学习攻击的鲁棒性。

arXiv:2606.17168v1 公告类型：新摘要：让大型语言模型（LLM）深度遗忘特定知识和价值观而不牺牲通用能力，仍是遗忘领域的一个核心挑战。然而，当前方法容易通过微调或少样本提示被逆转，表明其遗忘仅是浅层的。我们识别了根本原因：现有方法针对的是与保留集以及被微调攻击者恢复的子空间共享的表示，这使得遗忘既破坏通用能力又容易被逆转。我们提出RepSelect（表示选择性），通过在每个更新前压缩权重梯度的前主成分来隔离遗忘集特定的表示，从而保持通用能力不变，同时限制微调可以恢复的内容。我们在两个遗忘类别（生物危害知识和攻击性倾向）以及四种跨越密集和混合专家架构的模型家族（Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite）上进行了评估。与五种流行基线（GradDiff、NPO、SimNPO、RMU、UNDIAL）相比，RepSelect在重学习后的答案准确率降低方面比最强基线高出4-50倍，并且对少样本提示攻击几乎完全鲁棒。因此，针对选择性表示是实现深度且稳健的LLM遗忘的重要一步。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:39

# RepSelect：通过表示选择性实现鲁棒的LLM去学习  
来源：https://arxiv.org/html/2606.17168  

Filip Sondej  
独立研究者  
& Yushi Yang¹  
牛津大学  
& Adam Mahdi  
牛津大学  

###### 摘要  

使大型语言模型（LLMs）深度遗忘特定知识和价值观而不牺牲通用能力，仍然是去学习领域的核心挑战。然而，当前方法很容易通过微调或少样本提示被逆转，这表明它们的遗忘只是浅层的。我们找到了根本原因：现有方法针对的表示同时与保留集以及微调攻击者能恢复的子空间共享，这使得去学习既损害通用能力又容易被逆转。我们提出 **RepSelect**（表示选择性），通过在每次更新前折叠权重梯度的主成分，隔离遗忘集特有的表示，从而保持通用能力不受影响，同时限制微调能恢复的内容。我们在两个遗忘类别（生物危害知识和虐待倾向）以及四种模型家族（涵盖密集和混合专家架构：Llama 3、Qwen 3.5、Gemma 4 E4B、DeepSeek V2 Lite）上进行了评估。与五种流行基线（GradDiff、NPO、SimNPO、RMU、UNDIAL）相比，RepSelect 在重新学习后的答案准确率降低方面比最强基线高出 4–50 倍，并且对少样本提示攻击具有近乎完美的鲁棒性。因此，针对选择性表示是实现深度且鲁棒的LLM遗忘的重要一步。代码位于：https://github.com/filyp/open-unlearning。  

## 1 引言  

大型语言模型（LLMs）在预训练期间从网络语料中获取了大量互联网语言模式，包括不良和偏见价值观（Parrish 等，2022）、危险知识（Li 等，2024）以及虐待倾向（Ji 等，2023）、隐私和版权内容（Carlini 等，2021；Karamolegkou 等，2023）。移除这些内容是一个严格的合规要求：生物安全政策、数据隐私法和版权都要求其被真正移除（欧洲议会和欧盟理事会，2016），即**深度**遗忘，而不仅仅是隐藏，以免微调或少样本提示能逆转它，尤其是对于开放权重模型（Kapoor 等，2024）。深度遗忘必须同时满足“不可能三角”的三个目标：移除目标知识（“遗忘”）、保持通用能力（“无干扰”）以及抵抗重新学习（“鲁棒性”）（Liu 等，2024；Łucki 等，2025）。然而，现有方法没有一种能可靠地实现这三个目标。RLHF 和 DPO 只是浅层抑制目标能力，而非移除（Lee 等，2024；Yang 等，2025b）。仅遗忘本身很简单：对遗忘集进行梯度上升可以抑制LLMs中的不良输出（Liu 等，2024）。同时保持通用能力更难，但可以通过保留集正则化（如KL惩罚）实现（Liu 等，2022；Zhang 等，2024）。最困难的要求是鲁棒性：被抑制的行为应通过微调或少样本提示仍然不可恢复（Qi 等，2023；Lermen 等，2024），从而实现深度移除。然而，专门的去学习方法仍然容易被逆转（Łucki 等，2025；Lynch 等，2024；Deeb 和 Roger，2024），这让人怀疑LLMs中是否根本不可能实现深度遗忘（Shumailov 等，2024）。  

我们确定可逆性的根本原因是表示重叠。遗忘集的高方差方向——即朴素去学习最针对的方向——与良性文本大量共享，因此干扰它们会降低通用能力。这些方向也正是微调遗忘集时自然恢复的方向，这就是遗忘容易逆转的原因。  

图1：LLM去学习的统一评估框架。  
我们沿着三个可测量的维度描述去学习：遗忘、干扰和鲁棒性。阶段1在遗忘集 \(\mathcal{D}_{\text{forget}}\) 上进行去学习，并测量对保留集 \(\mathcal{D}_{\text{retain}}\) 的遗忘（在保留集 \(\mathcal{D}_{\text{eval}}\) 上的问答准确率）和干扰（MMLU、WikiText KL）。阶段2在重新学习集 \(\mathcal{D}_{\text{relearn}}\)（与遗忘集类似）上应用重新学习（微调和少样本学习），并将重新学习后的准确率评估为遗忘的深度，即鲁棒性。  

图2：概述。  
（A）主成分（PCs，来自对遗忘集激活的SVD）捕获了大部分保留集方差（红色阴影）并编码了常见概念（红色单词），这些概念并非遗忘集特有，而底部PCs更特属于遗忘集。朴素去学习主要针对顶部PCs，因此会干扰通用能力，并且容易被在类似数据上微调的攻击者逆转。（B）RepSelect在每次更新前折叠顶部PCs，将权重变化限制在遗忘特异的底部子空间。（C）在微调和少样本（\(k=5\)）攻击下，RepSelect将攻击后的分数推至远低于次优基线（NPO、RMU）。条形从无去学习基线（右边缘）向左延伸；条形越长表示去学习效果越好。结果基于Llama-3.1-8B / WMDP-Bio；该模式在我们测试的所有模型和数据集上成立（图6，表3）。  

图3：RepSelect与最佳基线的去学习轨迹（Gemma-4-E4B）：  
*左*面板显示去学习–干扰权衡（x轴：WikiText KL散度，即对保留集的干扰；y轴：攻击后的答案概率，↓越低越好；左下角是理想的）。*右*面板显示在微调攻击下的鲁棒性（x轴：重新学习轮数；平坦的低线更鲁棒）。对于知识去学习（WMDP-Bio；*上*），只有RepSelect在相同的干扰预算内实现了有意义的去学习，并且对重新学习鲁棒。对于倾向去学习（Animal Abuse；*下*），NPO匹配了RepSelect的去学习效果，但与RepSelect不同，它被重新学习完全逆转。类似模式在Llama-3.1-8B、Qwen3.5-9B和DeepSeek-V2-Lite（MoE）上也成立；见图12–14。  

基于这些见解，我们提出 **RepSelect**（表示选择性）：我们对遗忘集权重梯度应用奇异值分解，并在每次去学习更新前抑制高方差子空间（图2、5）。尽管每个低方差方向携带的遗忘信号比高方差方向弱，但它们共同持有大部分遗忘特异信号，同时与通用能力的纠缠较少，且受重新学习的影响较小。RepSelect在重新学习后的答案概率降低方面，对于生物危害知识去学习比最佳基线（NPO）大8–50倍，对于动物虐待倾向比最佳基线（NPO或RMU）大4–15倍，同时保持通用能力。总之，我们做出三项贡献：  

- **1** 我们在表示层面证明了为什么好的遗忘、低能力干扰和对重新学习的鲁棒性这三个目标难以同时实现（§3）。对遗忘最有效的方向正是与保留集激活共享且与攻击者子空间重合的方向，因此这三个目标根本冲突。  
- **2** 我们引入RepSelect（§4），一种简单高效的去学习方法，在权重更新前折叠遗忘高方差表示，将去学习限制在选择性方向上。  
- **3** 我们证明RepSelect在四个模型家族和两个去学习场景中泛化（§5），在遗忘深度和通用能力上持续优于五种流行基线，确认表示选择性对于深度LLM去学习是重要的。  

## 2 实验设置  

##### 去学习预备知识  

给定一个预训练模型 \(\theta_0\)，一个*遗忘集* \(\mathcal{D}_{\text{forget}}\)，以及一个*保留集* \(\mathcal{D}_{\text{retain}}\)，去学习产生一个新模型 \(\theta\)，该模型在遗忘数据上最大化损失，同时保持对保留数据的性能（Liu 等，2022；Dorna 等，2025）。然后，在*重新学习攻击*下测试去学习模型：对手要么在来自同一领域的数据上微调 \(\theta\)，要么用少样本上下文示例探测它，以测试抑制的知识是否可恢复。每个MLP权重更新可以分解为 \(\Delta W = \sum_t \mathbf{g}_t \otimes \mathbf{a}_t\)，其中 \(\mathbf{a}_t\) 是输入激活，\(\mathbf{g}_t\) 是令牌 \(t\) 处的输出梯度（Geva 等，2022）。这种分解允许我们在 \(\mathbf{g}_t\) 和 \(\mathbf{a}_t\) 分别聚合为 \(\Delta W\) 之前对其进行分析和干预。  

##### WMDP-Bio（有害知识）  

表1总结了我们的数据集。从WMDP（Li 等，2024）中，我们将整个生物集筛选到189个最适合靶向去学习的多项选择题（MCQs）（数据创建过程见附录B.3.1）。遵循Deeb和Roger（2024），我们为每个问题生成三个释义作为遗忘语料，并采用他们的低互信息重新学习协议。189个问题被50/50分割。去学习使用全部 \(189 \times 3\) 个释义。重新学习攻击使用94个问题的释义（282个释义），而95个问题作为保留的MCQ评估。保留集是来自FineWeb（M-A-P等，2024）的领域匹配的*生物学*分割。  

##### BeaverTails-AA（有害倾向）  

我们使用了BeaverTails数据集（Ji 等，2023）中的*animal_abuse*类别。我们选择这个类别是因为其有害内容不需要特定领域知识或技能，因此去学习它测试了纯粹的倾向移除，而不混淆能力损失。我们构建了一个合成保留集，将每个遗忘示例中的有害概念替换为良性对应物（例如*折磨* → *培育*），保持所有上下文不变（附录B.3.2）。  

##### 模型  

我们评估了四种模型，涵盖广泛的家族和规模，包括密集模型（Llama 3.1 8B（Grattafiori 等，2024）、Qwen 3.5 9B（Yang 等，2025a））和混合专家模型（Gemma 4 E4B（Gemma Team，2026）和DeepSeek-V2-Lite（DeepSeek-AI等，2024））。  

表1：用于去学习的数据集。  
Forget：用于去学习损失的有害数据。Relearn：由微调攻击者使用的保留有害数据（与Forget和Eval不相交）。Eval：用于测量遗忘和攻击后鲁棒性的保留有害数据。Retain：用于测量保留损失或KL的领域匹配良性数据。WikiText-eval：用于监测对保留/通用能力干扰的保留通用文本。WMDP的forget和relearn大小是文本释义（每个MCQ 3个）。  

表2：评估轴、指标和攻击。  
在训练期间跟踪遗忘和干扰；鲁棒性通过两个事后攻击进行探测，使用与 \(\mathcal{D}_{\text{forget}}\) 和 \(\mathcal{D}_{\text{eval}}\) 不相交的数据。  

| 轴 | 指标 | 数据集 | 时机 |
| --- | --- | --- | --- |
| 遗忘（↑） | 每令牌答案概率 | WMDP / BT Eval | 训练期间 |
| 干扰（↓） | WikiText KL：\(\text{KL}(p_{\theta_0} \| p_{\theta})\) | WikiText | 训练期间 |
|  | MMLU准确率 | MMLU | 训练后 |
| 鲁棒性（↑） | 微调攻击：在 \(\mathcal{D}_{\text{relearn}}\) 上10轮 | WMDP / BT Eval | 训练后 |
|  | 少样本攻击：从 \(\mathcal{D}_{\text{relearn}}\) 中取 \(\{5,10\}\) 个示例 | WMDP / BT Eval | 训练后 |

我们沿着三个轴进行评估（表2）。所有方法共享固定的干扰预算。一旦WikiText（Merity 等，2016）上的 \(\text{KL}(p_{\theta_0} \| p_{\theta})\) 超过0.01（∼0.4% 的负对数似然增加），训练停止，因此所有方法在匹配的效用设置下进行比较。为了评估鲁棒性，我们在重新学习集上应用全模型微调，这是已知最强的对抗性攻击（Łucki 等，2025），以及少样本攻击（Lynch 等，2024），该攻击在每个评估提示前附加来自重新学习分割的 \(k \in \{5,10\}\) 个上下文示例，模拟一个拥有领域示例但无权访问权重的对手（附录B.4）。我们报告跨重新学习轮次的最大攻击后指标，模拟对手在最佳检查点提前停止。  

##### 去学习基线  

我们使用Open-Unlearning框架（Dorna 等，2025）比较了五个基线，这是一个统一的LLM去学习方法评估管道：GradDiff（Liu 等，2022）、NPO（Zhang 等，2024）、SimNPO（Fan 等，2025）、RMU（Li 等，2024）和UNDIAL（Dong 等，2025）（见第6节）。  

##### 超参数调优  

所有方法，包括RepSelect，都使用Optuna（Akiba 等，2019）进行调优，采用树结构帕尔森估计器（TPE）采样，进行30次试验，优化攻击后答案概率。每次试验最多去学习10轮，然后在最后有效的模型基础上重新学习。

RepSelect：通过表示选择性实现稳健的LLM遗忘

相似文章

抵御重学攻击的鲁棒大语言模型遗忘：表征中的次要分量至关重要

回放重要内容：用于高效LLM强化遗忘的离策略回放方法

模型遗忘目标因语言功能不同而异

基于边际自校正的大规模快速遗忘

面向响应指定的大语言模型遗忘的零空间约束低秩自适应

提交意见反馈