CiPO:通过迭代偏好优化实现大型推理模型的反事实遗忘
摘要
CiPO是一种新颖的机器遗忘框架,用于大型推理模型,它利用迭代偏好优化和反事实推理轨迹,在保持推理能力的同时选择性移除不想要的知识。该方法通过生成逻辑上有效的替代推理路径,解决了依赖于链式思维推理的模型中的遗忘挑战。
查看缓存全文
缓存时间: 2026/04/20 08:29
# 大型推理模型的反事实遗忘:基于迭代偏好优化 来源:https://arxiv.org/html/2604.15847 李俊毅†,陈永强⋄,丁宁宁† †香港科技大学(广州) ⋄香港中文大学 [email protected], [email protected], [email protected] ###### 摘要 机器遗忘作为一种有前途的技术,近年来受到越来越多的关注,旨在有选择性地从大规模人类数据训练的大型语言模型中移除不想要的隐私或版权信息。然而,大型推理模型(Large Reasoning Models, LRMs)的出现,其强调通过长链式思维(Chain-of-Thought, CoT)推理来解决复杂问题,给遗忘带来了两难困境:现有方法要么难以从CoT轨迹中完全消除不需要的知识,要么因干扰推理过程而降低推理性能。为此,我们提出了**CiPO**(Counterfactual Unlearning through Iterative Preference Optimization),一种通过迭代偏好优化实现反事实遗忘的新型框架,它将遗忘重新定义为对LRMs中CoT推理的目标性干预。具体而言,给定一个期望遗忘的目标答案,CiPO指导LRMs生成逻辑上有效的反事实推理轨迹,用于偏好调优。当LRM调整至反事实轨迹时,CiPO迭代更新偏好学习数据,以增大与原始模型的差异。这种迭代循环确保了理想的遗忘效果和平滑优化,有效缓解了两难困境。在具有挑战性的基准实验上,CiPO在遗忘方面表现出色,不仅从中间CoT步骤中完全消除了知识,也从最终答案中彻底移除了相关信息,同时保留了LRMs的推理能力[^1]。 [^1]: 我们的代码可在 https://github.com/TerryLee77/CiPO 获取。 **CiPO: 大型推理模型的反事实遗忘——通过迭代偏好优化** 李俊毅†,陈永强⋄,丁宁宁††† †通讯作者。 †香港科技大学(广州) ⋄香港中文大学 [email protected], [email protected], [email protected] ## 1 引言 大型语言模型(Large Language Models, LLMs)在众多任务中展现出卓越的能力,已成为许多应用的核心组成部分(OpenAI, 2023; DeepSeek-AI, 2024; Grattafiori et al., 2024)。然而,由于是在大规模人类数据上训练的,LLMs的巨大容量也使其会记忆并可能再生训练数据中的敏感、私人或版权信息(Karamolegkou et al., 2023; Patil et al., 2024; Li et al., 2024)。这引发了重大的隐私和伦理担忧,需要开发在模型训练后控制其知识的方法(Liu et al., 2025a)。因此,**机器遗忘**作为一个关键领域应运而生,它提供了有选择地从模型中擦除信息的技术,从而符合如“被遗忘权”等数据隐私法规,而无需付出高昂的重新训练成本(Voigt and Bussche, 2017; Yao et al., 2024; Zhang et al., 2025)。  尽管在LLMs上取得了成功,但最近出现的LRMs给遗忘带来了新的挑战。由于LRMs依赖生成长的链式思维(CoT)推理步骤来解决复杂的多步问题(OpenAI, 2024; DeepSeek-AI, 2025),遗忘需要**同时**从推理轨迹和最终答案中消除所需的知识。如图1所示,虽然CoT轨迹将模型的内部推理过程转化为显式的文本输出,有助于推理,但推理轨迹本身也成为数据泄露的主要载体。因此,在推理过程中任何阶段使用的敏感信息都会被记录并直接暴露出来(Green et al., 2025)。即便遗忘尝试后,遗忘的信息仍若隐若现地嵌入在模型的推理轨迹中,可能无意中引导推理过程,从而增加了重建原始输出的风险。传统的LLM遗忘方法无法很好地应对这一场景,因为它们并非为遗忘这些复杂的、暴露的逻辑路径而设计。 认识到这一差距,已有若干研究探索了专门针对LRMs的遗忘技术,但关键局限性依然存在。一种代表性策略是训练模型对与遗忘请求相关的提示生成通用的拒绝回答(例如,“我不知道”)(Yoon et al., 2025)。这种粗略的方法引入了新的隐私风险:一致的拒绝回答可能暗示特定数据已被遗忘,从而增加了成员推理攻击的风险(Zhou et al., 2025)。此外,针对多样化的提示优化模板化的拒绝回答会破坏训练的稳定性并降低可用性(Mekala et al., 2025; Wang et al., 2025b)。另一项工作R2MU通过扰动内部表示来抑制敏感的推理轨迹,但以牺牲可读性和推理质量为代价(Wang et al., 2025a)。总之,现有的LRM遗忘方法迫使人们做出不理想的选择:要么是浅层次的拒绝回答,引入新的隐私风险;要么是强硬的抑制,破坏模型的核心推理能力。这一困境凸显了对更精细方法的迫切需求,从而引出了我们的关键研究问题:**如何在LRM遗忘中同时处理推理轨迹和最终答案,而不引入新的隐私风险,同时保持连贯的推理能力?** 为回答这个问题,我们提出了**CiPO**(Counterfactual Unlearning through Iterative Preference Optimization),一种专门为LRMs设计的新型遗忘方法。CiPO将遗忘重新定义为对LRMs的CoT推理的目标性干预,并通过一种***迭代在策略***偏好优化循环来执行。具体而言,给定遗忘目标,CiPO指导LRMs构建一个逻辑有效的反事实轨迹,用于偏好优化。在每次迭代中,我们对遗忘提示的CoT推理步骤和最终答案进行采样,而不是使用固定的结果,并构建动态偏好对,其中反事实轨迹作为偏好响应,采样答案作为非偏好响应。然后,我们优化一个类似DPO的目标,使模型***偏好反事实路径***。通过使用在策略的实时偏好,CiPO使遗忘过程与模型不断演化的分布保持一致,缓解了分布不匹配问题,同时保留了推理能力(Guo et al., 2024; Pang et al., 2024; Tu et al., 2025)。我们的实验表明,CiPO在擦除推理轨迹和最终答案中的敏感信息方面表现出色,同时保持了推理能力,为LRMs提供了一种高效的遗忘策略。 我们的贡献可总结如下: - • **问题识别:** 我们识别出现有LRM遗忘方法的关键局限性,指出了基于表示误导和回避目标知识的策略如何可能降低模型性能,或未能提供建设性且安全的遗忘。 - • **提出方法:** 我们提出了CiPO,一个从因果视角出发的迭代框架,通过使用在线偏好优化将原始推理轨迹和答案替换为期望的反事实轨迹,从而超越这些局限和挑战。 - • **实验验证:** 通过在R-TOFU和现实世界基准上的实验,我们证明了CiPO能够有效地从答案和推理轨迹中移除目标知识,同时保留模型的核心推理能力。 ## 2 相关工作 ##### **LLM遗忘** 机器遗忘是一个新兴领域,专注于有选择地从训练模型中移除特定数据点的影响,而无需付出从头重新训练的高昂成本(Cao and Yang, 2015; Xu et al., 2023; Wen et al., 2026)。将遗忘应用于大型语言模型(LLMs)代表了超越传统机器学习的至关重要的一步。它解决了在LLM应用中保护版权或私人信息的需求,遵守如GDPR等法规,并减少有害内容的生成(Eldan and Russinovich, 2023; Shi et al., 2025; Li et al., 2024)。一种主要方法将LLM遗忘表述为一种目标性优化问题(Jang et al., 2023)。一种策略是直接修改模型权重,对“遗忘”数据的负对数似然应用梯度上升(GA),从而有效降低此类输出的概率。这通常与对“保留”集合的标准梯度下降(GD)相结合,以保持通用能力(Yao et al., 2024; Maini et al., 2024; Dorna et al., 2025)。另一种替代策略利用基于偏好的优化方法。例如直接偏好优化(DPO)或负偏好优化(NPO)等技术重新调整模型,使其倾向于生成中性或拒绝回答,而不是生成不期望的信息(Zhang et al., 2024; Wang et al., 2025b; Mekala et al., 2025; Sinha et al., 2025; Fan et al., 2025)。受表示工程启发,RMU微调模型,将遗忘样本的隐藏状态导向一个随机向量(Li et al., 2024)。然而,LLM遗忘方法不适用于LRMs,因为它们旨在修改最终输出,而不是显式的多步推理轨迹;因此,需要新的设计来干预推理路径。 ##### **LRM遗忘** LLMs向一种新型的LRMs的进步,从根本上标志着整合透明的逐步链式思维推理,这使得它们的问题解决过程变得显式(OpenAI, 2024; DeepSeek-AI, 2025)。将机器遗忘应用于LRMs引入了一个关键挑战:不想要的信息可能嵌入在整个CoT轨迹中。当前的解决方案要么试图抑制错误推理路径,如R2MU(Wang et al., 2025a),要么训练模型通过像ReasonedIDK(Yoon et al., 2025)这样的方法来拒绝回答。然而,这些方法可能降低推理能力,或由于过度拒绝(Zhou et al., 2025)引入新的数据泄露风险。本文将克服这些挑战,同时实现有效的LRM遗忘。 ##### **偏好优化** 偏好优化(PO)训练LLMs,使其对于给定的提示 \(x\),偏好一个期望的响应 \(y^+\) 胜过不期望的 \(y^-\),而不是最大化原始似然。诸如DPO或SimPO等方法通过直接优化对数概率比上的逻辑损失,提供了高效的、无需强化学习的解决方案(Rafailov et al., 2023; Meng et al., 2022)。然而,在固定预收集的数据对上进行PO训练,相对于不断演化的模型而言本质上是离策略的,并且对新兴的失败模式探索不足。因此,我们采用一种***迭代/在线***的PO方法。在每一轮中,当前模型对候选答案进行采样,构建动态偏好,并更新策略。这种迭代循环减少了分布不匹配,改善了探索,并凭借在线学习保证带来了收益(Guo et al., 2024; Pang et al., 2024; Tu et al., 2025)。在我们的设置中,这种迭代视角使遗忘信号与模型不断演化的分布保持一致。 ## 3 预备知识 在本节中,我们介绍LLM中机器遗忘的背景知识,并将其扩展到LRMs。 ### 3.1 LLM中的机器遗忘 LLM的机器遗忘旨在移除特定训练数据的影响,使LLM表现得如同那些数据从未参与过训练,而无需承担完全重新训练的成本。机器遗忘已成为解决LLM中隐私、安全和版权问题的关键技术(Chen et al., 2024)。令 \(\pi\) 表示我们要进行遗忘的目标LLM的参数。遗忘任务由两个数据集正式定义: - • **遗忘集合 \(D_f\)** 包含模型必须遗忘其知识的数据实例 \(\{q, a\}\),其中 \(q\) 是与遗忘集合相关的查询,\(a\) 是对应的答案。 - • **保留集合 \(D_r\)** 包含模型不应遗忘且需要保留的数据。该集合用于正则化遗忘过程,以保持模型的通用能力。 LLM遗忘的目标可以形式化为一个优化问题,该问题寻求在遗忘和保留知识之间的双重目标平衡(Yuan et al., 2025): \[ \min_{\pi'} \underbrace{\mathbb{E}_{D_f}\left[\ell_f(\pi'; D_f)\right]}_{\text{遗忘损失 } \ell_f} + \lambda \underbrace{\mathbb{E}_{D_r}\left[\ell_r(\pi'; D_r)\right]}_{\text{保留损失 } \ell_r}, \quad (1) \] 其中 \(\pi'\) 表示遗忘后模型的参数,\(\ell_f\) 是设计为使模型“遗忘” \(D_f\) 中内容的损失函数,\(\ell_r\) 是惩罚模型在保留集 \(D_r\) 上偏离原始模型行为的损失函数。超参数 \(\lambda\) 控制这两个目标之间的权衡。现有的大多数遗忘方法遵循公式(1)中描述的一般形式,尽管它们在遗忘损失和保留损失的具体设计上有所不同。我们进一步讨论代表性方法的细节。
相似文章
DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡
# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:
乱码也有效:提示空间扰动拓宽推理探索
本文介绍了 LoPE,这是一种利用提示空间扰动来解决可验证奖励强化学习中“零优势问题”的训练框架,从而增强大语言模型的推理探索能力。
ATTNPO: 用于高效推理的注意力引导过程监督
ATTNPO 引入了一个注意力引导的过程监督框架,通过利用内在的注意力信号进行步级信用分配,减少大型推理模型的过度思考,在 9 个基准测试中实现了更好的性能和更短的推理长度。
早期剪枝学习!高效并行推理的路径剪枝方法
本文提出了 STOP(SuperTOken for Pruning),一个系统框架,用于在大型推理模型的并行推理中早期剪枝低效推理路径。该方法在 1.5B 到 20B 参数的模型中实现了优异的效率和效果,在固定计算预算下将 GPT-OSS-20B 在 AIME25 上的准确率从 84% 提升到 90%。
OThink-SRR1:用强化学习为大模型实现搜索、精炼与推理
OThink-SRR1 提出迭代式“搜索-精炼-推理”框架,通过 GRPO-IR 强化学习降低检索噪声与 token 开销,同时提升多跳问答准确率。