标签
本文认为,标准的输出层机器遗忘评估高估了成功程度,表明方法可以在输出层看似成功,同时保留与重新训练模型相关的结构性表征层差异。作者提出与重新训练一致的表征遗忘作为更强的评估视角。
提出了绑定子空间(BSU),一种表示级框架,用于在端到端口语理解模型中隔离和削弱意图条件方向,以防止能力持续性——即抑制某个意图时,强制前缀仍能生成槽。该方法降低了强制前缀的可恢复性,同时保持了在SLU基准测试上的保留性能。
本文提出了PreUnlearn,一个在LLM遗忘执行前审计附带知识损害的框架,采用以数据为中心的分析来预测跨语义层的下游损害。
提出SAGE,一种后处理方法,用于清洗大型语言模型中的最终遗忘向量,在不重新运行遗忘流程的情况下改善保留-遗忘权衡。
RepSelect提出了一种稳健的LLM遗忘方法,通过压缩权重梯度的前主成分来隔离遗忘集特定的表示,在多种模型家族上相比现有基线实现了4-50倍更好的对抗重学习攻击的鲁棒性。
本文介绍了SPACE,这是首个面向多模态大语言模型(MLLMs)的无源遗忘框架,它利用文本引导的代理锚点选择和双约束语义隔离来擦除目标概念,无需访问原始训练数据,实现了与依赖数据的方法相当的性能。
论文提出TRACE,一种用于混合专家语言模型中机器遗忘的方法,通过重新加权词元级保留损失来校准保留正则化,以解决遗忘-保留路由不匹配问题。实验表明,在多个MoE大语言模型上改善了遗忘-效用权衡。
本文正式定义了强化学习中的精确遗忘问题,提出了一种用于表格型MDP的ρ-TV-稳定强化学习算法,该算法能以重训练成本的一小部分高效移除用户数据影响,并实现了接近最小最大最优的遗憾界。该工作已被ICML接收,并建立了ρ-TV-稳定强化学习算法的上下界。
介绍了MASC(边际自校正),一种用于大型语言模型的高效遗忘方法,采用在线停止规则,以降低的计算成本实现有竞争力的遗忘-保持权衡,并在TOFU和MUSE基准上得到验证。
AMNESIA 是首个大规模开源医学去学习基准,包含来自 11 种疾病的 8,820 份病历笔记中的 70,560 个问答对,旨在评估 LLM 对事实知识和推理知识的遗忘情况。
本文指出了机器遗忘基准中的一个盲点:因果类(Why型)知识的代表性不足,并提出了5WBench(一个均衡的基准)和Maat(一个基于LoRA适配器的三阶段遗忘框架),该框架在因果事实的遗忘与保留方面均表现优异。
MAAT 提出了一种多阶段 LoRA 适配器遗忘方法,并配套了 5WBENCH 基准测试。该研究揭示,由于因果性“为什么”知识涉及长程多跳答案链和梯度稀释问题,这类知识在遗忘时特别困难。在 Llama 3.2-3B 模型上,该方法在遗忘与保留之间取得了优异的平衡。
本文提出 ManiF-SMC,一种完全在表征空间中运行的近似机器遗忘方法,通过将擦除样本从其原始学习的流形表征推向保留数据中其最近的语义邻居,并使用由自模式连通性模块引导的基于边界的三元组损失来实现自适应边界。
介绍了DualOptim+,一个面向LLM遗忘的优化框架,它使用共享基态和解耦增量态来平衡遗忘与保留目标,并提供量化变体以减少内存占用。
本文重新审视了语言模型机器遗忘背景下的可靠性悖论,证明模型在依赖基于捷径的决策规则的同时能够实现较低的校准误差,从而将该悖论扩展至未学习模型。
介绍了HF-KCU,一种联邦学习中高效机器遗忘的方法,利用Krylov子空间近似移除客户端的贡献,在保持模型精度的同时实现比重新训练显著的加速,并对对抗扰动提供鲁棒性。
本文介绍了一种干扰感知的多任务机器遗忘框架,通过任务感知的梯度投影和实例级别的梯度正交化来解决任务级和实例级干扰,在多任务计算机视觉基准上实现了有效的遗忘。
提出了ASRU,一个可控的多模态遗忘框架,它结合激活引导与强化学习奖励函数,以提高遗忘效果和生成质量,同时在Qwen3-VL上保持模型效用。
本文提出了两个新指标——知识可分性得分(KSS)和知识持久性得分(KPS)——用于评估大语言模型在多语言机器遗忘中的跨语言信息删除,弥补了以往单语言评估协议的不足。
本文介绍了GUARD-IT,一种无需训练的机器遗忘方法,该方法在推理时使用输入相关的激活引导来从大型语言模型中移除目标知识,而无需修改权重,其性能匹配或超过基于梯度的基线方法,同时保持效用和对量化的鲁棒性。