理解LLM中新知识诱导的事实幻觉:分析与解释
摘要
本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。
arXiv:2511.02626v3 公告类型:替换
摘要:先前的研究表明,在新知识上微调大语言模型(LLM)会诱导事实幻觉,导致在评估先前已知信息时输出错误。然而,这类幻觉的具体表现及其基础机制仍未被充分理解。我们的工作通过设计一个受控数据集 \textit{Biography-Reasoning} 来填补这一空白,并在多种知识类型和两种任务类型(包括知识问答和知识推理任务)上进行了细粒度分析。我们发现幻觉不仅严重影响涉及新引入知识的任务,还会传播到其他评估任务。此外,当在某个特定知识类型完全由新知识组成的数据集上微调时,LLM会表现出更高的幻觉倾向。这表明特定知识类型内的陌生程度,而非新知识的总体比例,是幻觉的更强驱动因素。通过可解释性分析,我们证明学习新知识会削弱模型对输入问题中关键实体的注意力,导致对周围上下文的过度依赖和更高的幻觉风险。相反,在训练的后期阶段重新引入少量已知知识可以恢复对关键实体的注意力,并大幅缓解幻觉行为。最后,我们演示了受损的注意力模式可以跨越词汇相似的上下文传播,促进幻觉在原始任务之外的扩散。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 理解LLM中新知识引发的事实幻觉:分析与解释
来源:https://arxiv.org/html/2511.02626
Renfei Dang1∗,Peng Hu1∗,Zhejian Lai1,Changjiang Gao1,Min Zhang2,Shujian Huang1†
1南京大学软件新技术国家重点实验室,中国南京
2华为翻译服务中心,中国北京
\{dangrf,hup,laizj,gaocj\}@smail\.nju\.edu\.cn,huangsj@nju\.edu\.cn,zhangmin186@huawei\.com
###### 摘要
先前的研究表明,对新知识进行微调会在大语言模型(LLM)中引发事实幻觉,导致在评估先前已知信息时产生不正确的输出。然而,这种幻觉的具体表现和潜在机制仍然理解不足。本文通过设计一个受控数据集Biography-Reasoning,并在多种知识类型和两种任务类型(包括知识问答和知识推理任务)上进行细致分析来解决这一问题。我们发现幻觉不仅严重影响涉及新引入知识的任务,还会传播到其他评估任务。此外,当在特定知识类型完全由新知识组成的数据集上微调时,LLM表现出更高的幻觉倾向。这表明特定知识类型内的陌生度,而非新知识的总体比例,是幻觉的更强驱动因素。通过可解释性分析,我们表明学习新知识会削弱模型对输入问题中关键实体的注意力,导致过度依赖周围上下文,增加幻觉风险。相反,在训练后期阶段重新引入少量已知知识可恢复对关键实体的注意力,并大幅缓解幻觉行为。最后,我们证明被破坏的注意力模式可以跨越词汇相似的上下文传播,促进幻觉在原始任务之外的传播。
## 1引言
大语言模型在海量文本语料库的预训练中获得丰富的事实知识,随后通过后训练来遵循人类指令并执行各种下游任务。

然而,在监督微调(SFT)阶段,模型可能遇到预训练中未涵盖的新知识。先前研究表明,在后训练阶段引入新知识会增加事实幻觉的风险,即模型生成虚构但看起来合理的陈述。这是因为当模型学习新知识时,可能会在无关上下文中错误生成相关信息。这些研究主要关注SFT期间知识密集型问答任务中的效果,我们通过调查幻觉的细致表现和潜在原因来推进这一研究方向。
为支持这项调查,我们构建了一个受控实验数据集Biography-Reasoning。该数据集由传记实体及其四个属性组成,这些属性充当四种知识类型。我们进一步使用这些知识设计了十二个推理任务。通过控制训练数据中不同类型和任务中已知和未知知识的比例,我们系统地分析学习新知识对幻觉风险的影响。
我们的实验表明,在未知知识上训练会显著提高相同任务中的幻觉风险,同时也对其他域外测试任务产生不可忽视的幻觉效果。重要的是,我们进一步发现,当知识类型完全由新知识组成时,即使少量这样的数据也会显著增加幻觉倾向。
通过进一步的可解释性分析,我们发现学习新知识会显著削弱模型对问题中关键实体的注意力,从而引发事实幻觉。相比之下,对已知知识的训练强化了对关键实体的注意力。受这一发现的启发,我们引入了一种简单的训练方法KnownPatch,它通过在训练后期阶段注入少量已知知识来恢复被破坏的注意力模式,从而缓解事实幻觉。最后,通过构建精心设计的推理任务变体,我们证明词汇相似性(由上下文之间的令牌重叠衡量),而非上下文的语义相似性,是跨任务幻觉传播的主要驱动因素。这些发现在图1中进行了视觉展示。
本论文的主要贡献如下:
- •细致分析:对知识类型和任务类型的详细分析揭示了新知识诱发幻觉的表现形式,表明当特定类型内的所有知识完全未知时,即使在无关的问答测试集上,也更可能触发严重幻觉。
- •机制可解释性:对注意力机制的分析表明学习新知识会减少对关键问题实体的注意力,导致幻觉。此外,词汇相似的上下文促进这些注意力模式的传播,使跨任务幻觉效果成为可能。
## 2相关工作
#### 新知识与幻觉
现有研究表明,向LLM引入新知识可能会触发幻觉。后续工作对这一现象进行了更深入的分析。
Gekhman等人发现,随着微调数据中新知识比例的增加,模型的幻觉倾向加剧。Kang等人分析发现,当微调后的LLM遇到测试中的未知查询时,其响应会模仿微调数据中与未知示例相关联的响应。从令牌概率的角度,Sun等人表明,在学习新知识后,即使在无关上下文中,答案实体令牌的生成概率也会显著增加,表明模型可能过度泛化新获得的知识,从而产生幻觉。
然而,先前的研究主要关注混合知识类型微调的闭卷问答设置,而我们的受控设置可解开它们以提供关于知识类型和任务中新知识引发幻觉的更详细分析。此外,我们还通过对注意力权重的分析来调查这些现象的潜在机制。
#### 减少幻觉
许多研究目前正在探索缓解模型幻觉的方法。一种常见的方法是向模型提供额外的相关上下文以减少生成过程中的幻觉,例如从知识库检索或利用其他大模型生成上下文。另外,一些研究通过拒绝回答不确定或不熟悉的问题来明确避免幻觉风险。在另一个方向,许多研究鼓励模型从预训练中生成更多已知知识,例如通过强化学习促进事实输出或在监督微调期间仅对已知知识进行训练来增强模型。
我们的工作基于使用已知知识的SFT方法,但与其在所有训练数据中进行全面过滤不同,KnownPatch仅在训练的后期阶段引入少量已知知识样本,并缓解模型的幻觉倾向。
## 3幻觉分析方法
我们旨在系统地调查由学习不同知识相关任务导致的LLM中的事实幻觉。然而,在真实数据集中,大多数事实知识可能已在预训练期间被LLM看到,这使得难以精确控制所学知识是否对模型是新的。为了解决这一限制,我们构建了一个名为Biography-Reasoning的合成数据集,允许在不同知识类型和任务类型下对幻觉行为进行可控检查。
### 3.1 Biography-Reasoning数据集
遵循Allen-Zhu和Li以及Zheng等人的数据构建方法论,我们设计了Biography-Reasoning数据集。该数据集以个人为关键实体,每个人有四个关联属性:出生年份、死亡年份、专业和大学。我们将不同个人的相同属性称为知识类型。我们的数据集包括两类知识相关任务:知识问答和知识推理任务。
对于知识问答任务,问题通过直接查询给定人名的一个属性而制定。每个任务包含单一类型的问题,形成四个问答任务(例如Major_QA)。对于基于知识的推理任务,我们设计了三种需要思维链的推理任务。具体来说,这些包括:
- •单一推理:从单个实体提取一个属性并执行简单推理过程;
- •比较推理:从两个实体中各提取一个属性,并在它们之间执行比较推理;
- •新颖推理:从单个实体提取一个属性并执行新定义的推理任务,如数学或符号推理。
表1展示了构建的问题示例。推理任务被故意设计得比单纯的知识提取问答问题更复杂。其中一些需要辅助知识(例如牙科专业属于医学领域),模型预期包含这些知识。为了进一步保证模型的熟练性,我们额外收集并训练这些辅助事实。
对于每种知识类型,我们构建一个问答和三个推理任务,每个个人共形成4个问答和12个推理任务。进一步的数据集详情可在附录A中找到。
表1:Biography-Reasoning中的问答和推理任务示例,与Major类型相关联。
### 3.2受控研究设计
为了检查由包含新知识的任务训练导致的事实幻觉,我们需要区分已知和未知知识,控制它们在训练中的使用,并评估相关幻觉。由于最初模型没有接触我们合成数据集的任何知识,我们通过持续预训练模型的知识子集来准备研究,这些知识变成模型的"已知";并将另一个知识子集保留为"未知"。通过以不同比例混合由已知和未知知识构建的问题,我们能够创建新引入知识以不同比例参与训练的情况。
为了评估训练如何导致幻觉,我们保留另一个知识子集作为测试知识。测试知识在准备期间与已知知识一起进行持续预训练,但在进一步训练中被隔离。因此,测试集上性能的差异(训练数据中有和没有未知知识)表明学习新知识导致的事实幻觉的影响。
另外,我们使用源自Wikidata的真实世界ENTITYQUESTIONS数据集(称为Wiki)作为域外(OOD)测试集,以提供更稳健的评估。
### 3.3模型和设置
我们主要使用Qwen2.5-1.5B模型进行实验。作为补充验证,我们还在Llama3.2-1B、Qwen3-8B-Base和Qwen2.5-32B上执行关键实验,以评估跨模型规模和架构的泛化,其结果见附录G。
由于我们的实验在基础模型上进行,我们首先应用SFT来赋予模型回答评估集中问题的能力。对于问答分析,SFT仅在知识问答数据上进行,而对于推理任务...相似文章
为什么微调会导致幻觉及其解决方案
本论文研究了监督微调(SFT)如何通过导致知识退化而增加大语言模型的幻觉问题,并提出了一种基于自蒸馏的方法来缓解这一问题,同时保留预训练阶段获得的既有事实知识。作者将语义干涉识别为SFT引起幻觉的主要机制,并演示了包括参数冻结和自蒸馏在内的解决方案。
大语言模型真的知道自己不知道什么吗?内部状态主要反映知识回忆而非真实性
本文质疑了大语言模型能够通过内部信号可靠区分幻觉输出和事实输出的假设,论证内部状态主要反映知识回忆而非真实性。作者提出了一套幻觉分类法(相关性幻觉与非相关性幻觉),并证明相关性幻觉的隐藏状态几何特性与事实输出重叠,使得标准检测方法失效。
智慧在于知道何时沉默:通过注意力转移实现无幻觉的大语言模型遗忘
本论文引入注意力转移(Attention-Shifting, AS)框架,用于大语言模型的选择性机器遗忘,在有效移除敏感信息与防止幻觉和保持模型性能之间取得平衡。该方法采用重要性感知的注意力抑制和保留增强机制,在标准基准上相比现有遗忘方法实现了高达15%的准确度保持率提升。
伪造引文在哪里产生:将字段级幻觉追溯到 LLM 中的特定神经元
罗格斯大学研究人员将 LLM 中的引文幻觉追溯到稀疏的字段特异性神经元,并通过因果干预抑制虚假引用。
幻觉神经元是否通用?LLM跨领域迁移证据
独立研究者发现,大模型中稀疏的“幻觉神经元”无法跨领域迁移,AUROC从0.783降至0.563,表明幻觉具有领域特异性,而非通用神经特征。