回放重要内容：用于高效LLM强化遗忘的离策略回放方法

arXiv cs.CL 2026/06/16 04:00 论文

摘要

本文介绍ReRULE，一种用于LLM强化遗忘的离策略回放方法，在RWKU和MUSE等基准测试中提高了遗忘与保留效率。

arXiv:2606.15333v1 公告类型：新论文摘要：LLM遗忘作为一种成本效益高的替代全量重新训练的方法出现，用于从预训练模型中去除有害知识，同时保持通用效用。最近的基于RL的方法如RULE将遗忘重新定义为学习拒绝行为，但其在策略优化在整个训练过程中反复从相同的遗忘和保留/边界提示中采样。我们发现了这一过程的一个关键低效之处：简单案例迅速收敛并提供几乎无用的梯度信号，而靠近遗忘/保留边界的困难案例继续产生低回报的展开，这些展开在单次使用后被丢弃。为解决此问题，我们提出ReRULE，一种用于强化遗忘的离策略回放增强。ReRULE在早期GRPO训练期间将低回报的困难案例展开组存储在回放缓冲区中，并通过重要性采样的离策略更新在后期阶段重用它们，将计算重定向到仍需学习的边界案例。理论上，我们证明ReRULE比纯在策略RULE产生更紧的困难案例收敛界。实证上，ReRULE将MUSE-Books保留质量从46.3提高到56.2，同时在各个基准测试中仅增加5-11%的训练时间。其在更简单的TOFU设置上的有限改进进一步支持了预期的条件行为：当困难/简单差异显著时，回放最为有益。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:47

# 基于离线策略回放的高效LLM强化遗忘

来源：https://arxiv.org/html/2606.15333

#### 实验设置

RWKU 基准 [Jin 等人，2024 (https://arxiv.org/html/2606.15333#bib.bib5)] 是一个真实世界知识遗忘基准，包含 200 个真实世界名人实体作为遗忘目标，共有 13,131 个多层次的遗忘探测。与 TOFU [Maini 等人，2024 (https://arxiv.org/html/2606.15333#bib.bib4)] 不同，RWKU 采用零样本遗忘设置，在训练期间既不能访问遗忘语料库，也不能访问保留语料库。在我们的实验中，我们遵循 RULE [Zhang 等人，2025 (https://arxiv.org/html/2606.15333#bib.bib1)] 的设置，并使用 Meta Llama3-8B-Instruct [Grattafiori 等人，2024 (https://arxiv.org/html/2606.15333#bib.bib29)] 作为基础模型。边界数据通过将目标实体替换为邻近实体构建，并且仅使用一小部分遗忘集和边界集进行强化遗忘训练。

#### 评估指标

为了评估 RWKU 上的遗忘性能，我们遵循 RULE 并报告遗忘质量、遗忘自然度和保留质量。遗忘质量通过遗忘探测上的 ROUGE-L 来衡量，包括填空 (FB)、问答 (QA) 和对抗性攻击 (AA) 查询，分数越低表示遗忘效果越好。保留质量在邻近的保留探测上进行评估，分数越高表示非目标知识保留得更好。此外，遗忘自然度从可读性、有用性和真实性三个方面衡量拒绝应答的质量。

#### 在相同的实验设置下（附录 D (https://arxiv.org/html/2606.15333#A4)），ReRULE 实现了比 RULE 更好的遗忘和保留性能。

如表 4.2 (https://arxiv.org/html/2606.15333#S4.SS2) 所示，在 GRPO 训练设置下，ReRULE 取得了最佳的遗忘质量，超越了 RULE，同时在遗忘自然度上也保持了前两名的性能。此外，ReRULE 在保留质量上优于 RULE，这与我们在第 3.2 节 (https://arxiv.org/html/2606.15333#S3.SS2) 中的论点一致，即 ReRULE 在困难案例上表现出更高的学习效率。

### 4.3 版权遗忘

#### 实验设置

MUSE 基准 [Shi 等人，2024 (https://arxiv.org/html/2606.15333#bib.bib6)] 是一个遗忘基准，要求模型遗忘受版权保护的内容，同时保留通用能力。遵循 RULE，我们使用 Meta Llama2-7B 作为基础模型。在 MUSE-books 设置中，遗忘目标是《哈利·波特》语料库，包含 3045 个文本段落。RULE 使用 GPT-4o-mini [OpenAI 等人，2024 (https://arxiv.org/html/2606.15333#bib.bib30)] 构建 QA 形式的遗忘查询，并通过替换敏感目标合成边界数据，用于后续的强化遗忘训练。

#### 评估指标

为了评估 MUSE-Books 上的遗忘性能，我们遵循 RULE 并报告三组指标：遗忘质量、遗忘自然度和保留质量。遗忘质量包括 VerbMem 和 KnowMem，衡量模型是否仍然记忆被遗忘的《哈利·波特》内容，分数越低表示遗忘效果越好。遗忘自然度从可读性、有用性和真实性三个方面评估，分数越高表示拒绝应答越自然可靠。保留质量通过 Utility 衡量，数值越高表示通用模型能力保留得越好。

表 2: Llama2-7b 在 MUSE-books 上的结果。我们报告了遗忘质量、拒绝的自然度和效用保留。每列方法 (附录 C (https://arxiv.org/html/2606.15333#A3)) 中列出了 Df 和 Dr 的训练 token 比率，最佳结果以绿色标注，次佳结果以蓝色标注。如果 ReRULE 的结果优于 RULE，则加下划线。

#### ReRULE 在遗忘质量和遗忘自然度上均达到前两名的性能。

如表 4.3 (https://arxiv.org/html/2606.15333#S4.SS3.SSS0.Px2) 所示，RULE 和 ReRULE 在大多数指标上均达到前两名的性能。此外，与几种获得最佳遗忘质量的方法相比，ReRULE 获得了显著更高的保留质量分数 56.2，而原始 RULE 仅达到 46.3。

#### 保留质量的提升证明了 ReRULE 在困难案例上的有效性。

如图 3(a) (https://arxiv.org/html/2606.15333#S4.F3.sf1) 所示，RULE 和 ReRULE 都很快实现了强大的遗忘质量，部分原因是 MUSE-Books 中与遗忘相关的任务相对简单，如图 1(a) (https://arxiv.org/html/2606.15333#S3.F1.sf1) 所示。然而，RULE 在保留质量上表现出显著的不稳定性，表明它不断探索困难案例，但很少采样到有效改善 KnowMem_r 的响应。相比之下，在第 26 步开始混合离线/在线策略训练后，ReRULE 增加了对困难案例的学习，并在相同训练步数下持续实现更好的保留质量，这与我们在第 3.2 节 (https://arxiv.org/html/2606.15333#S3.SS2) 中的分析一致。

请参考图注 (a) MUSE 上的总体指标比较。
请参考图注 (b) 训练过程中困难案例的跟踪。

图 3: (a) RULE 与 ReRULE 在 MUSE 上的比较。绿色垂直线标记了第 26 步混合训练的开始。(b) 三个困难案例的平滑奖励曲线，其早期平均奖励低于 0.4。

#### 在特定困难案例上，ReRULE 优于 RULE。

表 3 (https://arxiv.org/html/2606.15333#S4.T3) 列出了 MUSE-Books 中的三个困难案例，其奖励曲线如图 3(b) (https://arxiv.org/html/2606.15333#S4.F3.sf2) 所示。在 ReRULE 训练下，这些案例通常获得比 RULE 更高的奖励。

表 3: 困难案例示例及其对应答案和响应类型。

#### 当回复缓冲区存储随机样本而非困难案例时，ReRULE 退化到 RULE 的水平。

为了考察困难案例的作用，我们进行了一个对照实验，在训练过程中回复缓冲区随机存储样本，然后在后期阶段进行相同的混合训练。结果以 ReRULE_random 的形式报告在表 4 (https://arxiv.org/html/2606.15333#S4.T4) 中。当存储策略变为随机时，ReRULE_random 退化到接近 RULE 的水平。这与 ReRULE 的动机相符：随机存储会重复训练模型选中的样本，而不考虑模型在这些样本上的表现。

表 4: 回复缓冲区随机存储的对照实验。

### 4.4 实体遗忘

#### 实验设置

TOFU 基准 [Maini 等人，2024 (https://arxiv.org/html/2606.15333#bib.bib4)] 是一个基于 200 个虚构作者传记构建的问答数据集，每个作者有 20 个问答对。根据指定的遗忘范围，数据集分为遗忘集和保留集。在我们的实验中，我们采用 1% 的遗忘划分。遵循先前工作 [Pang 等人，2025 (https://arxiv.org/html/2606.15333#bib.bib12)]，我们使用 Meta Llama2-7B [Touvron 等人，2023 (https://arxiv.org/html/2606.15333#bib.bib31)] 作为所有实验的基础 LLM。

#### 评估指标

为了评估遗忘模型在 TOFU 上的遗忘性能和保留效用，我们遵循先前工作 [Maini 等人，2024 (https://arxiv.org/html/2606.15333#bib.bib4)] 报告遗忘质量 (FQ)、模型效用 (MU) 和遗忘 ROUGE-L (F-RL)。FQ 使用遗忘模型与仅保留模型之间的 Kolmogorov–Smirnov 检验计算，值越高表示遗忘越好。MU 衡量在保留的保留数据上的效用，值越高越好。我们还报告了遗忘集上的 F-RL，分数越低表示遗忘性能越好。

表 5: Llama2-7B 在 TOFU 上的结果。FQ、MU、F-RL 和 R-RL 分别表示遗忘质量、模型效用以及遗忘集和保留集上的 ROUGE-L 分数。最佳结果以绿色标注，次佳结果以蓝色标注。

#### ReRULE 和 RULE 均实现了强大的性能。

与其他基线相比，ReRULE 和 RULE 在保持强大模型效用的同时，均取得了最佳的遗忘质量和遗忘 ROUGE-L，显示出良好的 FQ-MU 权衡 [Pang 等人，2025 (https://arxiv.org/html/2606.15333#bib.bib12)]。这是因为它们将遗忘重新定义为学习精确的拒绝行为，而不是直接擦除知识。然而，ReRULE 在 TOFU 上带来的改进有限，因为 TOFU forget01 设置相对较小且简单。如表 6 (https://arxiv.org/html/2606.15333#S4.T6) 所示，TOFU 在早期训练中包含较少的困难案例，留给基于回放的学习空间有限。

表 6: 不同阈值设置下的困难比率。

### 4.5 消融研究

#### 关于计算成本

由于 ReRULE 在每个标准在线策略步骤之后增加了额外的基于回放的重要性比率梯度更新，其计算成本可能引起关注。然而，回放缓冲区同时存储困难案例的提示及其采样轨迹，避免了后期离线策略训练中的重复采样。因此，ReRULE 仅需要适度的额外计算。我们在表 7 (https://arxiv.org/html/2606.15333#S4.T7) 中报告了不同实验的训练时间。

表 7: RULE 和 ReRULE 在不同基准上的训练成本比较。所有训练实验均在 4 块 NVIDIA A800 GPU 上进行。

#### 关于回复缓冲区的设置

为了检查回复缓冲区设计是否是影响实验结果的关键因素，我们针对不同 τ 值进行了消融研究，τ 控制选择数据进入回复缓冲区的标准。由于 RULE 奖励函数的设计，每个采样输出的奖励只能取三个值之一：0、0.5 或 1.0。因此，当 τ 设为 0.4 时，只有奖励为 0 的案例存储在回放缓冲区中；当 τ 设为 0.6 时，奖励为 0 和 0.5 的案例都会被存储，以此类推。结果如表 8 (https://arxiv.org/html/2606.15333#S4.T8) 所示。

表 8: 不同回复缓冲区设置下的实验结果。ReRULE_0.6 表示阈值 τ 设为 0.6 的变体，而 ReRULE_1.0 表示阈值 τ 设为 1.0 的变体。在 ReRULE 的原始 MUSE-Books 实验中，τ 设为 0.4。

随着 τ 的增加，困难案例的标准变得不那么严格，导致模型已经相对容易的样本被存储在回复缓冲区中。在混合训练期间，反复更新这些容易样本可能引入冗余优化，降低训练效率，最终导致整体性能变差。

## 5 结论

在 RULE 的基础上，本文提出了 ReRULE，一种用于 LLM 遗忘的离线策略强化学习增强方法。ReRULE 将 GRPO 训练中遇到的困难案例存储在回放缓冲区中，然后结合在线策略 GRPO 和重要性加权的离线策略更新，提高了在困难案例上的学习效率。在多个基准上的实验表明，ReRULE 在基于微调的遗忘方法中取得了有竞争力的性能，并且仅需适度的额外计算，即可在困难案例场景下超越 RULE。

## 局限

本文主要针对遗忘设置中的一个具体问题：在 RULE 框架内，拒绝提示和正常提示通常表现出显著不同的难度水平，这导致在 RULE 训练的后期阶段训练效率相对较低。

对于提示难度相对均匀或总体容易的数据集，ReRULE 带来的改进预计非常有限。从本文 TOFU 任务的结果中也可以观察到这一现象。

## 伦理考虑

机器遗忘与隐私保护、被遗忘权、版权保护和负责任的模型部署等伦理问题密切相关。尽管本文的实验不涉及人类受试者或新收集的敏感个人数据，但我们承认遗忘方法可能具有更广泛的伦理影响。首先，不完全的遗忘可能会造成虚假的隐私或版权合规感，如果模型中仍然存在残留的记忆、复述的知识或成员信号。其次，过度激进的遗忘可能会导致有用保留知识的附带损失，特别是当遗忘数据和保留数据在语义上纠缠时。第三，遗忘技术具有双重用途：虽然它们可以帮助移除私人、版权、偏见或不安全的信息，但也可能被滥用来压制信息或掩盖责任。

在我们的实验中，TOFU 使用其作者构建的虚构个人档案，RWKU 基于众所周知的真实世界事实，MUSE-Books 则专注于受版权保护的书籍相关信息。我们仅将这些基准用于研究评估，并不试图重建、重新分发或暴露私人或受版权保护的内容。因此，我们的结果应被解释为基准设置下关于遗忘行为的经验证据，而非在现实世界部署中完全法律或隐私合规的保证。

## 参考文献

- K. Bhaila, M. Van, and X. Wu (2025) Soft prompting for unlearning in large language models. In Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pp. 4046–4056. 引用自: §2 (https://arxiv.org/html/2606.15333#S2.SS0.SSS0.Px1.p1.1).
- L. Bourtoule, V. Chandrasekaran, C. A. Choquette-Choo, H. Jia, A. Travers, B. Zhang, D. Lie, and N. Papernot (2021) Machine unlearning. In 2021 IEEE symposium on security and privacy (SP), pp. 141–159. 引用自: §2 (https://arxiv.org/html/2606.15333#S2.SS0.SSS0.Px2.p1.1).
- T. Chu, Z. Song, and C. Yang (2024) How to protect copyright data in optimization of large language models?. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 38, pp. 17871–17879. 引用自: §1 (https://arxiv.org/html/2606.15333#S1.p1.1).
- B. C. Das, M. H. Amini, and Y. Wu (2025) Security and privacy challenges of large language models: a survey. ACM Computing Surveys 57(6), pp. 1–39. 引用自: §1 (https://arxiv.org/html/2606.15333#S1.p1.1).
- Z. Deng, C. Y. Liu, Z. Pang, X. He, L. Feng, Q. Xuan, Z. Zhu, and J. Wei (2025a) GUARD: generation-time llm unlearning via adaptive restriction and detection. External Links: 2505.13312, Link (https://arxiv.org/abs/2505.13312) 引用自: §2 (https://arxiv.org/html/2606.15333#S2.SS0.SSS0.Px1.p1.1).
- Z. Deng, Z. Shen, L. Li, Y. Zhou, Z. Zhu, Y. He, W. Wang, and J. Wei (2025b) LM-mixup: text data augmentation via language model based mixup. arXiv preprint arXiv:2510.20449. 引用自: §1 (https://arxiv.org/html/2606.15333#S1.p1.1).
- Z. Di, S. Yu, Y. Vorobeychik, and Y. Liu (2025) Adversarial machine unlearning. In International Conference on Learning Representations, Vol. 2025, pp. 21612–21633. 引用自: §1 (https://arxiv.org/html/2606.15333#S1.p1.1).
- R. Eldan and M. Russinovich (2023) Who’s harry potter? approximate unlearning for llms. 引用自: Appendix B (https://arxiv.org/html/2606.15333#A2.SS0.SSS0.Px10), Appendix B (https://arxiv.org/html/2606.15333#A2.SS0.SSS0.Px9).
- K. Ethayarajh, W. Xu, N. Muennighoff, D. Jurafsky, and D. Kiela (2024) Kto: model alignment as prospect theoretic optimization. arXiv preprint arXiv:2402.01306. 引用自: §2 (https://arxiv.org/html/2606.15333#S2.SS0.SSS0.Px2

回放重要内容：用于高效LLM强化遗忘的离策略回放方法

相似文章

使用回放缓冲区重新审视难题 (8分钟阅读)

基于边际自校正的大规模快速遗忘

RecMem：基于重复的记忆整合方法，用于高效且有效的长期运行LLM智能体

超越推理：强化学习释放大型语言模型中的参数化知识

抵御重学攻击的鲁棒大语言模型遗忘：表征中的次要分量至关重要

提交意见反馈