抵御重学攻击的鲁棒大语言模型遗忘:表征中的次要分量至关重要

arXiv cs.CL 论文

摘要

本文介绍了次要分量遗忘(MCU),这是一种针对大语言模型遗忘的新颖方法,通过靶向表征中的次要分量来抵御重学攻击。它通过关注模型谱结构中的鲁棒方向,解决了现有方法的脆弱性问题。

arXiv:2605.11685v1 公告类型:新论文 摘要:大语言模型(LLM)遗忘旨在无需昂贵的重新训练即可从预训练模型中移除特定数据的影响,从而解决隐私、版权和安全问题。然而,最近的研究揭示了一个关键漏洞:经过遗忘处理的模型可以通过重学攻击迅速恢复“被遗忘”的知识。这种脆弱性引发了严重的安全担忧,尤其是对于开放权重模型。在本研究中,我们从表征几何学的角度调查了这种脆弱性背后的基本机制。我们发现,现有的遗忘方法主要沿主导分量进行优化,而次要分量几乎保持不变。关键的是,在重学攻击期间,这些主导分量中的修改很容易被逆转,从而导致知识迅速恢复,而次要分量对此类逆转表现出更强的抵抗力。我们进一步提供了理论分析,从表征的谱结构解释了这两种观察结果。基于这一洞察,我们提出了次要分量遗忘(MCU),这是一种明确针对表征中次要分量的新颖遗忘方法。通过将遗忘效果集中在这些固有鲁棒的方向上,我们的方法对重学攻击实现了显著提高的抵抗力。在三个数据集上的广泛实验验证了我们的方法,显示出优于最先进方法(包括锐度感知最小化)的显著改进。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 06:17

# 抵御重新学习攻击的鲁棒大语言模型遗忘:表示中的次要成分至关重要

来源:https://arxiv.org/html/2605.11685  
作者:Zeguan Xiao¹, Xuanzhe Xu², Yun Chen¹, Yong Wang³, Jian Yang⁴, Yanqing Hu², Guanhua Chen²  
¹上海财经大学, ³阿里巴巴集团  
²南方科技大学, ⁴北京航空航天大学

###### 摘要

大语言模型(LLM)遗忘旨在无需昂贵重新训练的情况下,从预训练模型中移除特定数据的影响,以应对隐私、版权和安全方面的担忧。然而,最近的研究揭示了一个关键漏洞:被遗忘的模型通过重新学习攻击(relearning attacks)会迅速恢复“已遗忘”的知识。这种脆弱性引发了严重的安全隐患,尤其是对开权重模型而言。在本工作中,我们从表示几何学的角度研究了这种脆弱性背后的基本机制。我们发现,现有的遗忘方法主要沿主导成分进行优化,而次要成分在很大程度上保持不变。关键在于,在重新学习攻击期间,这些主导成分的修改很容易被逆转,从而使得知识快速恢复,而次要成分则表现出更强的抗逆转能力。我们进一步提供了理论分析,从表示的频谱结构解释了这两个现象。基于这一洞察,我们提出了**次要成分遗忘(Minor Component Unlearning, MCU)**,这是一种新颖的遗忘方法,明确针对表示中的次要成分。通过将遗忘效应集中在这类本质上更具鲁棒性的方向上,我们的方法实现了对重新学习攻击的显著增强抵抗力。在三个数据集上的广泛实验验证了我们的方法,证明其优于包括锐度感知最小化(sharpness-aware minimization)在内的最先进方法。

## 1 引言

大语言模型(LLMs)的快速发展导致了从创意写作到代码生成等多个领域的显著进步(Grattafiori et al., 2024)。与此同时,开权重模型的发布速度日益加快,其能力仅落后于闭源前沿模型六到十二个月(Bhandari et al., 2025; Maslej et al., 2024)。然而,无论是开源还是闭源模型都引发了关于隐私侵犯、版权侵权和安全风险的严重担忧(Liu et al., 2025; Casper et al., 2025)。当部署后发现不良数据影响时,从头重新训练这些大规模模型往往成本 prohibitive。这推动了**LLM 遗忘**的发展,这是一种后训练策略,旨在无需完全重新训练的情况下移除特定数据影响并抑制相关的模型能力(Jiang et al., 2023; Liu et al., 2025; Maini et al., 2024)。

尽管 LLM 遗忘的重要性日益凸显,但最近几项研究指出一个关键问题:**当前的遗忘方法缺乏鲁棒性**(Łucki et al., 2025; Lynch et al., 2024; Hu et al., 2025; Deeb and Roger, 2024)。具体而言,被遗忘的模型表现出令人惊讶的易感性,能够通过**重新学习攻击**迅速恢复“已遗忘”的知识(Lynch et al., 2024; Hu et al., 2025)。更令人担忧的是,在良性、无关的下游任务上进行微调可能会无意中撤消遗忘效果(Fan et al., 2025)。对于开权重模型,这种鲁棒性的缺失构成了严重的安全挑战:任何下游参与者都可以通过最少的微调轻松逆转遗忘效果,从而破坏预期的保护(Casper et al., 2025; Rosati et al., 2024)。最近的严格评估显示,在重新学习攻击后,最先进遗忘方法的知识恢复率超过 88%,表明它们未能真正从模型权重中移除知识(Deeb and Roger, 2024)。

> **图 1 说明**  
> **左**:在测试集上重新训练(RTT)攻击评估:遗忘集被分割为 $T$ 和 $V$;在 $T \cup V$ 上进行遗忘后,攻击者在 $T$ 上进行微调,并在 $V$ 上测量恢复情况。  
> **中**:朴素方法和 SAM 主要沿主导成分(DC)分离遗忘/保留表示,这些成分容易被重新学习逆转;MCU 还沿次要成分(MC)进行分离,其变化在攻击后 largely preserved( largely 保留)。  
> **右**:在 WMDP-Cyber 数据集上,MCU 在保持实用性的同时,显著降低了攻击后的准确率。

尽管现有工作提出了各种技术来提高遗忘鲁棒性——例如用于平滑优化的锐度感知最小化(SAM)(Fan et al., 2025)和表示级干预(Li et al., 2024; Sondej and Yang, 2025)——但这些方法 largely 依赖于经验,且 LLM 遗忘易受重新学习攻击影响的基本机制仍然知之甚少。因此,我们提出:**(Q)为什么 LLM 遗忘对重新学习攻击如此脆弱?**

为了回答 **(Q)**,我们通过表示几何学的视角对 LLM 遗忘进行了原则性分析。我们发现,现有的遗忘方法主要沿主导成分方向进行优化,而次要成分 largely 保持不变。关键在于,当施加重新学习攻击时,这些主导成分的修改容易被逆转——其恢复率显著高于次要成分——这解释了为什么当前方法对此类攻击如此脆弱。我们进一步给出了理论分析,从表示的频谱结构推导出这两种现象,确定了脆弱性的结构根源。

受这些发现的启发,我们提出了**次要成分遗忘(MCU)**,这是一种新颖的遗忘方法,明确针对内部表示的次要成分。利用“次要成分在重新学习期间本质上更抗恢复”这一观察结果,我们的方法在保持无关任务上的模型实用性的同时,实现了对重新学习攻击的显著增强的鲁棒性。

我们将我们的**贡献**总结如下:
1. 我们首次从表示几何学角度对 LLM 遗忘鲁棒性进行了系统分析,并辅以理论分析。我们确定了导致遗忘脆弱性的关键机制:遗忘期间修改的主导成分容易被重新学习攻击恢复,而次要成分表现出显著更强的抗恢复能力。
2. 基于这些洞察,我们提出了 MCU,一种明确针对表示次要成分的新颖遗忘方法。
3. 我们在 WMDP-Cyber、WMDP-Bio 和 Years 数据集上进行了广泛实验,证明我们的方法在重新学习攻击后显著减少了知识恢复,同时保持了模型实用性,优于现有方法。图 1 展示了 WMDP-Cyber 数据集上的一些实验亮点。

> *注:我们的代码已公开于 https://github.com/sustech-nlp/MCU。*

## 2 LLM 遗忘基础

#### 问题定义

LLM 遗忘旨在擦除或抑制预训练 LLM 中的不良知识,同时保持其一般性能(Liu et al., 2025)。形式上,给定一个具有参数 $\bm{\theta}_{\mathrm{o}}$ 的预训练 LLM,以及一个被划分为**遗忘集** $\mathcal{D}_{\mathrm{f}}=\{(\mathbf{x}_i, y_i)\}_{i=1}^{n_f}$ 和**保留集** $\mathcal{D}_{\mathrm{r}}=\{(\mathbf{x}_j, y_j)\}_{j=1}^{n_r}$ 的数据集,其中 $\mathcal{D}_{\mathrm{f}}$ 包含要遗忘的数据,$\mathcal{D}_{\mathrm{r}}$ 包含模型应仍然记住的数据,遗忘旨在获得更新后的参数 $\bm{\theta}_{\mathrm{u}}$,使得模型“忘记” $\mathcal{D}_{\mathrm{f}}$ 中的信息,同时在 $\mathcal{D}_{\mathrm{r}}$ 上保持性能。理想的遗忘方法应确保遗忘模型权重与遗忘集之间的互信息接近于零,这意味着被移除的知识是真正从模型中擦除,而不仅仅是隐藏(Deeb and Roger, 2024)。

#### 遗忘方法

令 $\pi_{\bm{\theta}}(x)$ 表示在模型参数 $\bm{\theta}$ 下文本文 $x$ 的概率。

*   **梯度上升(Gradient Ascent, GA)**(Jiang et al., 2023)最大化遗忘集上的交叉熵损失:
    $$ \mathcal{L}_{\text{GA}} = \underset{x\in\mathcal{D}_{\mathrm{f}}}{\mathbb{E}}[\log\pi_{\bm{\theta}}(x)] \tag{1} $$

*   **负偏好优化(Negative Preference Optimization, NPO)**(Zhang et al., 2024)通过对待 $\mathcal{D}_{\mathrm{f}}$ 为不偏好响应来适配 DPO(Rafailov et al., 2023):
    $$ \mathcal{L}_{\text{NPO}} = -\frac{2}{\beta}\, \underset{x\in\mathcal{D}_{\mathrm{f}}}{\mathbb{E}}\left[\log\sigma\left(-\beta\log\frac{\pi_{\theta}(x)}{\pi_{\text{ref}}(x)}\right)\right] \tag{2} $$
    其中 $\pi_{\text{ref}}=\pi_{\bm{\theta}_{\mathrm{o}}}$,$\beta$ 是温度参数。

*   **表示误导用于遗忘(Representation Misdirection for Unlearning, RMU)**(Li et al., 2024)将内部隐藏状态扰动向一个随机控制向量:
    $$ \mathcal{L}_{\text{RMU}} = \underset{x\in\mathcal{D}_{\mathrm{f}}}{\mathbb{E}}\left[\sum_{t\in x}\|\mathbf{h}(t)-c\cdot\mathbf{u}\|^2\right] \tag{3} $$

*   **MLP 破坏(MLP Breaking)**(Sondej and Yang, 2025)驱动 MLP 输出与其原始输出正交(基于事实知识存储在 MLP 参数中的动机,Nanda et al., 2023):
    $$ \mathcal{L}_{\text{MLP Breaking}} = \underset{x\in\mathcal{D}_{\mathrm{f}}}{\mathbb{E}}\left[\sum_{t\in x}\text{ReLU}\left(\frac{\langle\mathbf{h}(t),\mathbf{h}_{\text{o}}(t)\rangle}{\|\mathbf{h}_{\text{o}}(t)\|^2}\right)\right] \tag{4} $$

其中 $\mathbf{h}(t)$ 是 token $t$ 的当前内部表示(RMU 的隐藏状态,MLP Breaking 的 MLP 输出),$\mathbf{h}_{\text{o}}(t)$ 是在 $\bm{\theta}_{\mathrm{o}}$ 下的值,$c$ 是缩放超参数,$\mathbf{u}$ 是随机控制向量。

## 3 理解脆弱的 LLM 遗忘

在本节中,我们研究遗忘和重新学习如何影响 LLM 的内部表示,并确定脆弱性的结构原因:**遗忘主要修改内部表示的主导(高方差)方向,这些方向在样本间广泛共享,因此容易被重新学习攻击逆转**。第 3.1 节通过三个观察结果在经验上确立了这一点,第 3.2 节对观察 2 和 3 进行理论解释。

### 3.1 表示几何学的经验观察

#### 设置

我们在遗忘集 $\mathcal{D}_{\mathrm{f}}$ 上提取 Llama-3.1-8B 所有层的 MLP 激活值,并应用 PCA,得到按方差递减顺序排列的主成分 $\{\mathbf{v}_1, \ldots, \mathbf{v}_d\}$,方差为 $\sigma_1^2 \geq \cdots \geq \sigma_d^2$。然后,我们追踪表示在遗忘和重新学习期间沿每个主成分的变化。实现细节(使用的模块、样本大小、层聚合)推迟到附录 E。

> **图 2:LLM 在遗忘和重新学习期间表示的主成分分析**  
> (a) 前几个主导成分捕获了表示中绝大部分的方差。  
> (b) 遗忘主要修改这些主导成分,而次要成分保持不变。  
> (c) 重新学习攻击优先恢复主导成分,使得沿这些方向的遗忘效果易于逆转。

#### 观察 1:LLM 表示集中在主导成分中

图 2(a) 显示了主成分的方差解释率:**前几个主导成分捕获了总方差的压倒性多数,而次要成分形成了虽小但不可忽略的长尾贡献**。为了量化遗忘和重新学习如何影响每个方向,我们为每个主成分 $\mathbf{v}_k$ 定义了两个指标:

$$ \text{Change Ratio}_k = \frac{\|\langle\mathbf{h}_{\text{u}}-\mathbf{h}_{\text{o}},\mathbf{v}_k\rangle\|}{\sum_{j=1}^{d}\|\langle\mathbf{h}_{\text{u}}-\mathbf{h}_{\text{o}},\mathbf{v}_j\rangle\|}, \tag{5} $$

$$ \text{Recovery Ratio}_k = \frac{\langle\mathbf{h}_{\text{u}}-\mathbf{h}_{\text{r}},\mathbf{v}_k\rangle}{\langle\mathbf{h}_{\text{u}}-\mathbf{h}_{\text{o}},\mathbf{v}_k\rangle}, \tag{6} $$

其中 $\mathbf{h}_{\text{o}}$, $\mathbf{h}_{\text{u}}$ 和 $\mathbf{h}_{\text{r}}$ 分别表示遗忘前、遗忘后和重新学习攻击后的表示;恢复比率接近 1 表示完全逆转,接近 0 表示鲁棒的遗忘。

#### 观察 2:遗忘主要修改主导成分

图 2(b) 报告了应用 GA 后的变化比率(公式 5):**遗忘在领先的主成分上引起不成比例的大幅变化,而次要成分 largely 保持不变**。这种模式在所有遗忘损失中均保持一致(附录 I)。

#### 观察 3:主导成分在重新学习期间更容易恢复

如果这些变化是鲁棒的,上述集中现象将是无害的。图 2(c) 报告了恢复比率(公式 6):**主导成分获得显著更高的恢复比率(通常 >90%),高于次要成分**,且在不同遗忘损失下呈现相同模式。

### 3.2 遗忘脆弱性的理论分析

*(原文截断)*

相似文章

智慧在于知道何时沉默:通过注意力转移实现无幻觉的大语言模型遗忘

arXiv cs.CL

本论文引入注意力转移(Attention-Shifting, AS)框架,用于大语言模型的选择性机器遗忘,在有效移除敏感信息与防止幻觉和保持模型性能之间取得平衡。该方法采用重要性感知的注意力抑制和保留增强机制,在标准基准上相比现有遗忘方法实现了高达15%的准确度保持率提升。

大型语言模型能否重塑基础算法?

Hugging Face Daily Papers

# 论文页面 - 大型语言模型能否重塑基础算法? 来源:[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后,它们还能从零重塑 Dijkstra、Euclid 等基础算法吗?** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域:先用“反学习”把目标算法从模型中抹去,再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。