标签
本文提出了两个新指标——知识可分性得分(KSS)和知识持久性得分(KPS)——用于评估大语言模型在多语言机器遗忘中的跨语言信息删除,弥补了以往单语言评估协议的不足。
本文介绍了GUARD-IT,一种无需训练的机器遗忘方法,该方法在推理时使用输入相关的激活引导来从大型语言模型中移除目标知识,而无需修改权重,其性能匹配或超过基于梯度的基线方法,同时保持效用和对量化的鲁棒性。
本文识别了一个基本的稀疏-持久权衡,其中量化逆转了机器遗忘,并提出了MANSU方法,该方法结合因果电路归因和零空间投影,实现了量化不变的遗忘。
本文介绍了非对称朗之万遗忘(ALU),这是一种利用公共数据来改善机器遗忘中隐私-效用权衡的框架。研究表明,ALU 降低了遗忘成本,并在保持高模型效用的同时实现了大规模遗忘。
本论文引入注意力转移(Attention-Shifting, AS)框架,用于大语言模型的选择性机器遗忘,在有效移除敏感信息与防止幻觉和保持模型性能之间取得平衡。该方法采用重要性感知的注意力抑制和保留增强机制,在标准基准上相比现有遗忘方法实现了高达15%的准确度保持率提升。
CiPO是一种新颖的机器遗忘框架,用于大型推理模型,它利用迭代偏好优化和反事实推理轨迹,在保持推理能力的同时选择性移除不想要的知识。该方法通过生成逻辑上有效的替代推理路径,解决了依赖于链式思维推理的模型中的遗忘挑战。
# 论文页面 - 大型语言模型能否重塑基础算法? 来源:[https://huggingface.co/papers/2604.05716](https://huggingface.co/papers/2604.05716) **在我们让 LLM“遗忘”之后,它们还能从零重塑 Dijkstra、Euclid 等基础算法吗?** 我们 loosely 将 Hassabis 的“爱因斯坦测试”搬到算法领域:先用“反学习”把目标算法从模型中抹去,再检验它能否独立重新发明。最新研究表明 LLM 具备这种潜力。