模型遗忘目标因语言功能不同而异

arXiv cs.CL 2026/05/27 04:00 论文

unlearning llm-safety knowledge-removal toxicity dangerous-knowledge meta-learning probe

摘要

本文认为，LLM中的遗忘应依赖于目标，提出了一种基于余弦的元学习RMU变体用于危险知识遗忘，以及一种结合探针方向的多层目标用于毒性遗忘，在四个7-8B模型上取得了显著效果。

arXiv:2605.26454v1 公告类型：新摘要：大型语言模型（LLM）在预训练过程中会学习到不良特性，包括危险知识和有毒文本生成。正如后训练使用不同的目标来塑造不同的行为，我们认为遗忘方法应针对所涉及的语言功能进行设计。为研究这一点，我们考虑了两种机制上不同的遗忘目标：危险知识遗忘和毒性遗忘。对于危险知识，我们引入了一种基于余弦的元学习RMU变体。对于毒性，我们提出了一种基于层特定探针方向的多层目标。在四个开源7-8B模型上，我们的方法基于两种不同类型的遗忘训练目标取得了显著结果。总体而言，我们的结果表明，遗忘应作为一个问题族来研究，类似于LLM后训练的多种类型。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:06

# 模型遗忘目标因不同语言功能而异
来源：https://arxiv.org/html/2605.26454
Berk Atil11Vipul Gupta22Rebecca J\. Passonneau11 11宾夕法尼亚州立大学22Scale AI

bka5352@psu\.edu

###### 摘要

大语言模型（LLMs）在预训练过程中会学习到不良特性，包括危险知识和有害文本生成。正如后训练使用不同目标来塑造不同行为一样，我们认为遗忘方法应针对所涉及的语言功能进行设计。为研究这一点，我们考虑了两个机制上不同的遗忘目标：危险知识遗忘和毒性遗忘。对于危险知识，我们引入了一种基于余弦的元学习变体RMU。对于毒性，我们提出了一种基于层特定探针方向的多层目标。在四个开源7-8B模型上，我们的方法基于两种遗忘类型的不同训练目标取得了强劲结果。总体而言，我们的结果表明，遗忘应作为一个问题家族来研究，类似于LLM后训练的多种类型。

# 模型遗忘目标因不同语言功能而异

Berk Atil11Vipul Gupta22Rebecca J\. Passonneau11
11宾夕法尼亚州立大学22Scale AI
bka5352@psu\.edu

## 1 引言

语言在人类社会中具有广泛的功能：它不仅用于传达信息，还用于协调行动、管理社会关系以及表达态度、意图和规范。大语言模型通过大规模预训练获得了极高的语言流畅性，随后使用后训练方法塑造诸如有用性、指令遵循和更安全的响应行为等特性（Ouyang等人，2022；Rafailov等人，2023；Du等人，2025）。然而，这些方法并未覆盖人类语言使用所实现的全部交际能力和规范。模型从训练数据中学习到危险的知识和有害的社会行为，如有毒语言生成（Brown等人，2020；Gehman等人，2020；Li等人，2024）。这激发了对*遗忘*日益增长的兴趣：通过微调对已训练模型进行事后干预，旨在移除特定知识、能力或行为（Cao和Yang，2015；Bourtoule等人，2021；Liu等人，2024；Maini等人，2024）。

我们的核心主张是，类似于后训练本身，*遗忘是目标依赖的*。现代LLM流程针对一系列不同功能具有不同的后训练过程：指令遵循、与人类价值观的偏好对齐、拒绝行为以及风格控制需要不同的目标（Ouyang等人，2022；Rafailov等人，2023；Du等人，2025）。机制性研究进一步表明，其中一些属性比其他属性受后训练影响更大。特别是，Du等人（2025）表明，事实知识的存储位置在基模型和后训练模型之间基本保持稳定，真实性方向在两者之间也高度相似，而拒绝方向在SFT和指令调优后发生显著变化。我们认为遗忘应考虑这些机制性观察。移除危险知识与移除社会不良行为不是同一个问题，因为这些功能在模型内部有不同的表示方式。

我们研究了机制证据表明可能不同的两个遗忘问题：移除*危险知识*与*有毒语言*。危险知识涉及模型访问事实或程序信息的能力，例如生物安全导向的设置，如WMDP（Li等人，2024）。相比之下，毒性涉及生成辱骂性或有害语言的倾向（Gehman等人，2020；Hartvigsen等人，2022）。现有工作（Kadhe等人，2024）将两者视为同一个遗忘问题的实例，但我们的结果表明并非如此，且这一结论得到近期机制研究的支持。对于事实知识，先前研究指出了相对结构化的检索机制（Meng等人，2022）。与陈述相关的知识集中在主语、宾语和最后标记位置，主语信息在较早层最强，宾语信息在早期到中期层，最后标记在中期到后期层变得尤为重要（Meng等人，2022；Geva等人，2023；Du等人，2025）。Du等人（2025）进一步表明后训练在很大程度上保留了这些知识存储位置。与此同时，当前的危险知识遗忘方法仍然有限：它们可能很浅层或可恢复，表明仅仅从不良行为中引导可能不够（Hu等人，2024；Deeb和Roger，2024；Dang等人，2024，2025）。

LLMs中产生毒性的机制与事实知识不同。Lee等人（2024）在平均最终层表示上训练了一个线性毒性探针，并识别出与毒性方向对齐的值向量。他们表明毒性主要在后来的MLP层中被激发，减去这些向量可以减少有毒输出。关键的是，在DPO之后，毒性向量在很大程度上仍然存在；取而代之的是，模型中微小的累积变化改变了激活，使得模型绕过促进毒性的区域，而不是擦除底层能力（Lee等人，2024）。这些发现表明对齐和遗忘具有互补作用：对齐可以减少有毒行为，而遗忘可以削弱底层毒性相关方向。

受此差异的启发，我们认为有效的遗忘需要对*正在被遗忘的是什么*有更好的理解。在高层面上，遗忘方法旨在减少不良行为同时保留所需行为，这反映在先前工作中标准的遗忘目标与保留目标组合（Li等人，2024；Huu-Tien等人，2024；Zhang等人，2024）。然而，我们声称遗忘目标的表述应取决于遗忘目标。我们为危险知识引入了一种新的遗忘方法，将RMU的L2目标（Li等人，2024）替换为余弦目标，并使用强化学习自适应地学习遗忘-保留权衡。对于毒性遗忘，我们提出了一种针对多层毒性相关信号的遗忘损失。为评估，我们引入了一个统一的评估指标，概括遗忘与保留之间的权衡。

## 2 相关工作

在本节中，我们回顾用于理解LLMs如何存储不良知识和毒性的工作。

### 2.1 LLM遗忘

遗忘最初被定义为在不完全重新训练的情况下移除特定训练数据的影响（Cao和Yang，2015；Bourtoule等人，2021）。在LLMs中，基于重新训练的精确保证通常不可行，因此近期工作依赖于基准特定的遗忘指标（Liu等人，2024）。诸如TOFU（Maini等人，2024）和WMDP（Li等人，2024）等基准已成为虚构档案遗忘和危险知识遗忘的标准数据集。现有方法包括基于梯度的遗忘目标、基于偏好的方法（如NPO（Zhang等人，2024））以及表示层面的引导方法（如RMU（Li等人，2024）或Spunge（Kadhe等人，2024））。

### 2.2 危险知识遗忘

一条主要工作线研究危险事实或程序知识的遗忘，尤其是通过WMDP风格评估（Li等人，2024）。然而，遗忘的知识通常可以通过针对性的重新学习恢复，大量信息可能仍留在模型权重中，且基于引导的方法可能降低鲁棒性或诱导无意义行为，而非干净地移除目标能力（Hu等人，2024；Deeb和Roger，2024；Dang等人，2024，2025）。我们的方法旨在为危险知识遗忘提供更原则性的目标。

机制性研究有助于澄清危险知识遗忘的问题。事实回忆强烈依赖于不同层范围内的主语、宾语和最后标记位置（Meng等人，2022；Geva等人，2023；Du等人，2025）。Du等人（2025）进一步表明后训练在很大程度上保留了这些知识存储位置，表明事实能力锚定在相对稳定的内部结构中。Zou等人（2023）发现表示层面的干预对安全相关能力提供了更多控制。这激励了我们的表示层面方法，旨在通过直接针对支持事实回忆的表示来削弱危险事实能力，同时保留通用效用。

### 2.3 毒性行为

另一条独立工作线研究有害语言生成，包括毒性和辱骂行为（Gehman等人，2020；Hartvigsen等人，2022）。机制证据表明毒性的表示方式与事实知识不同。Lee等人（2024）表明可以从最终层隐藏状态中提取一个毒性方向，并且与该方向对齐的后期层值向量可以调节有毒输出。然而，显然DPO并未移除这些毒性向量；相反，它引入了分布式偏移，绕过激发毒性的区域（Lee等人，2024）。更一般地说，这表明对齐可能减少有毒行为，但未完全移除底层毒性能力。Du等人（2025）同样表明拒绝方向在后训练过程中发生显著变化，而真实性方向则不然，这强化了安全行为更依赖后训练且在结构上不如事实知识稳定的观点。

当我们对毒性尝试类似RMU的方法时，结果很差。毒性分布在多个层中，这促使我们采用多层毒性遗忘目标。

L=LF\+α⋅LRL=L\_\{\\text\{F\}\}+\\alpha\\cdot L\_\{\\text\{R\}\} (1)
LF=Ex∼DF\[∑t∈xf‖Mupdated\(t\)−c⋅u‖22\]L\_\{\\text\{F\}\}=\\mathbb\{E\}\_\{x\\sim D\_\{\\text\{F\}\}\}\\left\[\\sum\_\{t\\in x\_\{f\}\}\\\|M\_\{\\text\{updated\}\}\(t\)\-c\\cdot\\mathbf\{u\}\\\|\_\{2\}^\{2\}\\right\] (2)
LR=Ex∼DR\[∑t∈xr‖Mupdated\(t\)−Mfrozen\(t\)‖22\]L\_\{\\text\{R\}\}=\\mathbb\{E\}\_\{x\\sim D\_\{\\text\{R\}\}\}\\left\[\\sum\_\{t\\in x\_\{r\}\}\\\|M\_\{\\text\{updated\}\}\(t\)\-M\_\{\\text\{frozen\}\}\(t\)\\\|\_\{2\}^\{2\}\\right\] (3)

## 3 遗忘基线方法

在本节中，我们回顾我们主要依据的基线方法。

### 3.1 RMU

表示误导遗忘（RMU）是一种微调方法，旨在从LLMs中选择性移除不良知识（Li等人，2024）。RMU处理两个数据集：*遗忘数据*，包含要遗忘的目标知识或行为；以及*保留数据*，包含用于保持模型所需能力的一般示例。它将模型在遗忘数据上的表示推向随机初始化的向量，同时鼓励保留数据上的表示与原始冻结模型的表示保持接近。总体目标如公式1所示。遗忘损失如公式2所示，其中u\\mathbf\{u\}是随机单位向量，cc是缩放因子。类似地，LretainL\_\{\\text\{retain\}\}指保留损失，并取整个保留数据集的期望，如公式3所示。

### 3.2 AdapRMU

Huu-Tien等人（2024）专注于公式2中的缩放系数cc。虽然方向u\\mathbf\{u\}在遗忘前已固定，但cc决定了表示偏移的幅度。AdapRMU基于遗忘表示范数自适应调整cc。

## 4 方法论

在本节中，我们提出对RMU的修改。我们对危险知识遗忘做了两项更改，然后为毒性引入了一个独立目标。我们还提出了反映遗忘与通用能力之间权衡的指标。

LF=Exf∼DF\[∑t∈xf\(1−Mupdated\(t\)⋅\(c⋅u\)‖Mupdated\(t\)‖2‖c⋅u‖2\)\]\\mathcal\{L\}\_\{\\text\{F\}\}=\\mathbb\{E\}\_\{x\_\{f\}\\sim D\_\{\\text\{F\}\}\}\\left\[\\sum\_\{t\\in x\_\{f\}\}\\left\(1\-\\frac\{M\_\{\\text\{updated\}\}\(t\)\\cdot\(c\\cdot\\mathbf\{u\}\)\}\{\\\|M\_\{\\text\{updated\}\}\(t\)\\\|\_\{2\}\\\|c\\cdot\\mathbf\{u\}\\\|\_\{2\}\}\\right\)\\right\] (4)
LR=Exr∼DR\[∑t∈xr\(1−Mupdated\(t\)⋅Mfrozen\(t\)‖Mupdated\(t\)‖2‖Mfrozen\(t\)‖2\)\]\\mathcal\{L\}\_\{\\text\{R\}\}=\\mathbb\{E\}\_\{x\_\{r\}\\sim D\_\{\\text\{R\}\}\}\\left\[\\sum\_\{t\\in x\_\{r\}\}\\left\(1\-\\frac\{M\_\{\\text\{updated\}\}\(t\)\\cdot M\_\{\\text\{frozen\}\}\(t\)\}\{\\\|M\_\{\\text\{updated\}\}\(t\)\\\|\_\{2\}\\\|M\_\{\\text\{frozen\}\}\(t\)\\\|\_\{2\}\}\\right\)\\right\] (5)

### 4.1 余弦损失替代L2损失

我们将原始公式2和3中的L2损失替换为余弦距离损失。具体而言，我们移除

相似文章

MLUBench: 多模态大语言模型终身遗忘评估基准

arXiv cs.AI

MLUBench 是一个大规模的多模态大语言模型终身遗忘基准，包含9个类别的127个实体。论文指出现有遗忘方法存在累积退化问题，并提出 LUMoE 来缓解此问题，显示出显著改进。

LLMs中的多语言去学习：迁移、动力学与可逆性

arXiv cs.CL

本文通过将TOFU基准扩展到五种语言，研究了LLMs中的多语言去学习。研究发现，去学习迁移因文字和语言家族而异，主要作用于后几层解码层，并且单个引导方向可以恢复跨语言被抑制的大部分知识。

抵御重学攻击的鲁棒大语言模型遗忘：表征中的次要分量至关重要

arXiv cs.CL

本文介绍了次要分量遗忘（MCU），这是一种针对大语言模型遗忘的新颖方法，通过靶向表征中的次要分量来抵御重学攻击。它通过关注模型谱结构中的鲁棒方向，解决了现有方法的脆弱性问题。

大型语言模型能否重塑基础算法？

Hugging Face Daily Papers

# 论文页面 - 大型语言模型能否重塑基础算法？来源：[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后，它们还能从零重塑 Dijkstra、Euclid 等基础算法吗？** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域：先用“反学习”把目标算法从模型中抹去，再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。

基于边际自校正的大规模快速遗忘

arXiv cs.LG

介绍了MASC（边际自校正），一种用于大型语言模型的高效遗忘方法，采用在线停止规则，以降低的计算成本实现有竞争力的遗忘-保持权衡，并在TOFU和MUSE基准上得到验证。