智慧在于知道何时沉默:通过注意力转移实现无幻觉的大语言模型遗忘
摘要
本论文引入注意力转移(Attention-Shifting, AS)框架,用于大语言模型的选择性机器遗忘,在有效移除敏感信息与防止幻觉和保持模型性能之间取得平衡。该方法采用重要性感知的注意力抑制和保留增强机制,在标准基准上相比现有遗忘方法实现了高达15%的准确度保持率提升。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 智慧在于懂得何时沉默:通过注意力转移实现无幻觉的大语言模型遗忘
来源:https://arxiv.org/html/2510.17210
Chenchen Tan1,Youyang Qu2,3,Xinghao Li1,Hui Zhang4,Shujie Cui1,Cunjian Chen1,Longxiang Gao2,3
1莫纳什大学信息技术学院,澳大利亚
2教育部计算能力网络与信息安全重点实验室,山东计算机科学中心,齐鲁工业大学(山东科学院),中国济南
3山东省计算能力互联网与服务计算重点实验室,山东省计算机科学基础研究中心,中国济南
4安徽大学计算机科学与技术学院,中国合肥
###### 摘要
计算能力的提升和AI辅助决策的必要性推动了大语言模型(LLM)应用的增长。随之而来,LLM对敏感数据的潜在保留引发了对机器遗忘研究的重视。然而,现有的遗忘方法面临一个关键困境:激进的遗忘会损害模型性能,而保守策略虽然保持性能但可能产生幻觉回应。这严重限制了LLM在知识密集型应用中的可靠性。为了解决这个问题,我们提出了一个新颖的注意力转移(AS)框架用于选择性遗忘。AS由两个设计目标驱动:(1)上下文保留抑制,减弱对事实承载标记的注意力而不破坏LLM的语言结构;(2)抗幻觉回应塑造,当被查询遗忘内容时防止生成虚假完成。AS通过两个注意力级干预实现这些目标:应用于遗忘集的重要性感知抑制以减少对记忆知识的依赖,以及增强保留数据中语义关键标记注意力的注意力引导保留增强,以缓解意外的性能降低。这两个组件通过双损失目标联合优化,形成一个软边界,使遗忘局部化同时在表示叠加下保留无关知识。实验结果显示,AS相比最先进的遗忘方法提高了性能保持能力,在ToFU基准上达到高达15%的准确率提升,在TDEC基准上提升10%,同时保持具有竞争力的无幻觉遗忘有效性。相比现有方法,AS在遗忘有效性、泛化性和回应可靠性之间展现出优越的平衡。
## 1 引言
大语言模型(LLM)最近在自然语言理解和生成方面取得了重大进展(Li等人,2024)。然而,尽管取得了这些成就,人们日益担忧LLM会记忆并随后重现敏感数据,造成严重的隐私问题(Carlini等人,2021;Wei等人,2024)。此外,《通用数据保护条例》(GDPR)等监管框架向数据所有者授予"被遗忘权",要求用户可以申请从数字系统(包括机器学习模型)中删除其数据(Voigt和Von dem Bussche,2017)。在这些情况下,机器遗忘已成为LLM中保护数据隐私的关键方法(Jang等人,2023;Chen和Yang,2023;Liu等人,2025,2024a;Shi等人,2024;Wang等人,2025b)。
这些隐私保护遗忘任务可以大致分为激进型或保守型。激进方法(如梯度上升(GA))修改LLM的学习目标以强制擦除目标知识(Jang等人,2023)。这通常导致整体模型性能的降低,特别是在邻近知识上——即与遗忘目标具有相似结构或语义关系的数据。其他方法采用保守的遗忘策略,如logits操纵(Cha等人,2025;Ji等人,2024;Huang等人,2024)以维持模型性能,但冒着引入事实幻觉的风险,即模型自信地生成与基础事实无关的内容。这些幻觉在下游任务(如问答系统)中构成严重威胁,特别是在医疗保健或法律等需要精确和可靠输出的应用场景中(Huang等人,2025;Hao等人,2024)。
在隐私敏感的LLM应用中实现有效遗忘具有挑战性,因为不同利益相关者有着相互冲突的利益和目标。一方面,其信息被用于LLM中的数据提供者的目标是完全防止LLM的答案中重现其数据(Rashid等人,2025;Tian等人,2024)。另一方面,模型部署者试图保持模型在广泛知识领域的通用能力并维持服务质量(Ji等人,2024;Yuan等人,2025)。
我们将此定义为多利益相关者平衡遗忘设置,其中遗忘策略应实现两个主要目标:1)使LLM能够"遗忘"目标数据,同时确保LLM在邻近知识和通用知识上都保持性能(Yuan等人,2025);2)防止遗忘知识的幻觉输出。

为了实现这些目标,我们提出了一个新颖的注意力转移(AS)遗忘方法。这是一种受控的激进方法,同时实现上下文保留遗忘和抗幻觉生成。AS抑制对遗忘集中事实承载标记的注意力,同时强化对保留数据中语义重要标记的注意力。这种机制减少了对目标知识的依赖,而不损害流畅性或连贯性,从而保持了通用和邻近知识的上下文完整性。
与先前的方法(Cha等人,2025;Yuan等人,2025)不同,这些方法操纵logits或替换输出,AS在内部重新分配注意力,在生成期间阻断记忆知识的流动(图1)。这使模型能够通过省略而非替代来遗忘,通过结构性消除对遗忘内容的访问来减少幻觉。
AS从原始模型的参考注意力图中获得抑制和强化信号,并通过注意力模块中的轻量级(约12M)适配器注入这些信号。双损失目标联合优化遗忘和保留,形成一个软边界,使抑制局部化同时稳定无关知识。虽然LLM中的神经元已知表现出表示叠加——多个概念间的共享激活,但我们的设计在这种纠缠下保持稳健,实现行为遗忘而无需显式解缠(Elhage等人,2022;Hong等人,2025)。
在ToFU和TDEC基准上的实验表明,AS在保持强性能的同时实现了近零知识泄露,准确率分别比最先进的基线高出15%和10%。与ULD(Ji等人,2024)和IHL(Cha等人,2025)等方法相比,这些方法可能会抑制目标标记但仍可能生成误导性完成,AS从结构上阻断了遗忘知识的访问并促进拒绝行为,从而有效地最小化幻觉。
## 2 相关工作
在本节中,我们介绍现有的遗忘方法,随后总结LLM遗忘中的挑战并确定现有方法中的差距。我们根据如何直接修改模型的内部表示将现有遗忘方法分为激进遗忘和保守遗忘(Yuan等人,2025)。
**激进遗忘**通过主动破坏其在模型中学到的表示来删除特定知识。这种类型的方法显著改变了决策边界,导致模型行为更广泛的意外转变。一个例子是GA(Jang等人,2023)方法。它强制模型学习目标知识的反向目标以实现遗忘,这会攻击性地反转目标数据的影响,将模型推离目标知识而无法控制,引发灾难性崩溃。为了解决这个限制,提出了负偏好优化(NPO)(Zhang等人,2024)作为GA的更稳定和受控的扩展。NPO采用基于偏好的损失函数,平滑了优化过程并防止极端的参数更新。已经提出了多个变体(Wang等人,2025b;Yao等人,2024;Wang等人,2025a;Lu等人,2024;Liu等人,2024b;Gu等人,2024)和扩展,进一步缓解了GA中观察到的不稳定性和过度遗忘,以提供选择性遗忘。
**保守遗忘**通过抑制目标标记并强化替代品来引导模型采用首选的替代回应(Cha等人,2025;Ji等人,2024;Eldan和Russinovich,2023)。Cha等人(2025)使用反向铰链损失来惩罚目标标记并强化逻辑替代品。Ji等人(2024)提出ULD,它从在目标上训练的轻量级助手模型中减去logits,显著降低目标生成概率。这些方法在开放式任务中有效,但可能保留潜在语义,导致部分遗忘或幻觉。例如,将"物理学家"替换为"艺术家"在"爱因斯坦是物理学家"中可能会产生"科学家"的转述或"舞者"等事实错误,破坏LLM的信任。安全对齐研究(Qi等人,2025)中呈现了类似的观察,证明浅层对齐如强化学习从人类反馈(RLHF)或logits修改干预无法抑制不需要的激活。
除了logits级方法,基于嵌入的方法(Liu等人,2024a;Yuan等人,2025;Bhaila等人,2024)通过将模型输入引导到结构化替代品来提供更可控的遗忘,同时最小化扰动。这些遗忘方法反映了在保持模型效用和缓解幻觉之间的不同权衡。激进策略通常会损害通用性能(Wang等人,2025b;Yao等人,2024;Wang等人,2025a;Lu等人,2024;Liu等人,2024b;Gu等人,2024),而保守策略需要复杂的辅助机制(Chen和Yang,2023;Liu等人,2024a;Ji等人,2024;Yuan等人,2025;Bhaila等人,2024)并冒着事实不一致的风险。
LLM遗忘仍然具有挑战性,因为存在相互冲突的需求:数据提供者寻求隐私和可移除性,而部署者优先考虑广泛的功能。为了弥合这一差距,我们提出了注意力转移策略,这是一种受控形式的激进遗忘,它抑制对事实承载标记的注意力。这种有针对性的干预破坏了对记忆内容的访问,同时保持了整体实用性,在有效性和稳定性之间取得了实际的平衡。
## 3 大语言模型中的注意力转移机制遗忘
### 3.1 选择性遗忘的标记重要性
注意力机制是LLM如何跨标记分配表示焦点的基础,影响生成概率。为了为我们的方法奠定基础,我们开始分析标记级相关性如何塑造预测。直观地说,名词、专有名词和领域特定术语充当语义锚点,而函数词(例如限定词、连接词)对意义的贡献最少。基于此,Duan等人(2024)提出了转移注意力到相关性(SAR),它通过基于掩蔽的扰动估计标记重要性,并重新分配注意力到显著标记以增强预测置信度。相比之下,我们将这一见解应用于遗忘:我们的方法抑制对编码事实或敏感知识的高重要性标记的注意力。与仅在推理时操作的SAR不同,我们的方法通过轻量级适配器将注意力抑制嵌入到模型参数中,实现受控遗忘。
形式上,给定输入序列 x={t₁,t₂,...,tₙ} 和预测分布 P_θ(y|x),标记 tᵢ 的重要性定义为当 tᵢ 被掩蔽时预测熵的变化:
I(tᵢ) := φ(相似文章
理解LLM中新知识诱导的事实幻觉:分析与解释
本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。
关注未见质量:通过软混合字母估计揭示 LLM 幻觉
研究者提出 SHADE,一种混合估计器,在仅能获取少量黑盒样本时,融合 Good-Turing 覆盖率与图谱线索,量化语义不确定性并检测大模型幻觉。
为什么微调会导致幻觉及其解决方案
本论文研究了监督微调(SFT)如何通过导致知识退化而增加大语言模型的幻觉问题,并提出了一种基于自蒸馏的方法来缓解这一问题,同时保留预训练阶段获得的既有事实知识。作者将语义干涉识别为SFT引起幻觉的主要机制,并演示了包括参数冻结和自蒸馏在内的解决方案。
大语言模型真的知道自己不知道什么吗?内部状态主要反映知识回忆而非真实性
本文质疑了大语言模型能够通过内部信号可靠区分幻觉输出和事实输出的假设,论证内部状态主要反映知识回忆而非真实性。作者提出了一套幻觉分类法(相关性幻觉与非相关性幻觉),并证明相关性幻觉的隐藏状态几何特性与事实输出重叠,使得标准检测方法失效。
MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉
# MeasHalu:通过增强推理缓解大语言模型的科学测量幻觉 来源:[https://arxiv.org/html/2604.16929](https://arxiv.org/html/2604.16929) Ruijun Huang1,Zhiqiao Kang1,Yuxuan Zhu1,Junxiong Li1,Jiahao Zhao1, Minghuan Tan1,Feng Jiang211footnotemark:1,Min Yang1 1 中国科学院深圳先进技术研究院高性能数据挖掘深圳市重点实验室 2 深圳大学人工智能研究院