LLMs为何在结构化知识上产生幻觉:对线性化表示推理的机制分析
摘要
本文对LLMs在推理线性化结构化知识时产生幻觉的原因进行了机制分析,发现幻觉源于系统的内部动态,例如对捷径线索的关注以及前馈层中语义基础的失败,而非随机噪声。
arXiv:2605.26362v1 公告类型:新
摘要:在许多推理任务中,大型语言模型(LLMs)依赖结构化的外部知识,例如图和表格,这些知识通常被线性化为顺序的token表示。然而,即使有足够的知识可用,LLMs仍然可能产生幻觉输出,而此类失败背后的潜在机制仍知之甚少。我们研究了这些机制,发现幻觉源于系统的内部动态,而非随机噪声。首先,注意力不成比例地集中在类似捷径的结构性线索上,而不是分布在完整的上下文中。其次,前馈表示未能将所提供的知识进行语义基础化,导致模型回归到参数记忆。此外,我们的结果表明,幻觉始终与前馈层内的语义基础化失败相关,而注意力分配则表现出更大的任务依赖性变化。最后,我们展示了这些机制模式能够从单跳图推广到多跳和表格设置,从而能够在多种结构化知识格式中进行有效的幻觉检测。
查看缓存全文
缓存时间: 2026/05/27 09:03
# 为什么大语言模型会在结构化知识上产生幻觉:基于线性化表示的推理机制分析
来源:https://arxiv.org/html/2605.26362
尚浩李¹, 锦达韩², 奕博王¹, 远杰朱¹, 子禾宋¹, 朗洲何¹, Kenan Kamel A Alghythee¹, Philip S. Yu¹
¹伊利诺伊大学芝加哥分校 ²伊利诺伊大学厄巴纳-香槟分校
{sli261, ywang633, yzhu224, zsong29, lhe24, kalghy2, psyu}@uic.edu [email protected]
###### 摘要
在许多推理任务中,大语言模型(LLM)依赖结构化的外部知识(如图和表格),这些知识通常被线性化为序列化的token表示。然而,即使输入中提供了足够的知识,LLM仍可能产生幻觉输出,而此类失败背后的内在机制仍鲜为人知。我们研究了这些机制,发现幻觉源于系统性的内部动态,而非随机噪声。首先,注意力不成比例地集中在类似捷径的结构性线索上,而不是均匀分布于整个上下文。其次,前馈表示未能锚定提供的知识,导致模型退回到参数化记忆。此外,我们的结果表明,幻觉始终与前馈层中语义锚定的失败相关,而注意力分配则表现出更大的任务依赖性变异。最后,我们证明这些机制模式能从单跳图泛化到多跳和表格设置,从而在结构化知识格式上实现有效的幻觉检测。
为什么大语言模型会在结构化知识上产生幻觉:基于线性化表示的推理机制分析
尚浩李¹, 锦达韩², 奕博王¹, 远杰朱¹, 子禾宋¹, 朗洲何¹, Kenan Kamel A Alghythee¹, Philip S. Yu¹
¹伊利诺伊大学芝加哥分校 ²伊利诺伊大学厄巴纳-香槟分校
{sli261, ywang633, yzhu224, zsong29, lhe24, kalghy2, psyu}@uic.edu [email protected]
## 1 引言
在现实世界中,人类知识很大一部分以结构化格式存储,如知识图谱和表格。当将此类结构化知识用于LLM的推理任务时,常见做法是将其线性化为文本序列(Jin et al., 2024; Deng et al., 2024b, a),因为当前LLM架构仅能操作于序列化的token表示。例如,现代检索增强生成(RAG)框架通常将检索到的子图序列化为关系三元组,或将表格数据转换为文本描述,以促进下游推理(Li et al., 2025; Kim et al., 2023; Chen et al., 2024; Zhang et al., 2025)。
尽管输入中提供了充分且准确的知识,LLM在推理线性化的结构化知识时仍经常产生幻觉输出(Ming et al., 2024; Sun et al., 2024)。现有文献主要通过外部干预(如检索增强和提示工程)在输入或输出层面解决此问题(Huang et al., 2025; Agrawal et al., 2024),但在理解潜在机制驱动因素方面仍存在显著空白:是什么导致模型未能充分利用输入中已存在的显式结构化知识,从而产生幻觉响应?
我们假设这些幻觉并非随机噪声,而是线性化结构与Transformer偏向于将自然语言建模为序列文本的归纳偏差之间内在张力所导致的系统性内部故障。为了超越黑箱观察,我们考察Transformer模型的两个核心功能组件:注意力头(选择性关注输入的子集;Michelet al., 2019; Voita et al., 2019)和前馈网络(FFN,在存储和整合知识中起核心作用;Dai et al., 2022; Geva et al., 2021)。通过这两个互补视角探针模型行为,我们研究注意力头和FFN如何协同处理结构化知识的线性化表示,以及这些过程中的功能失调如何导致幻觉的产生。
参见图注
图1:结构化知识推理中幻觉机制的示意性概述。该图突出展示了在线性化结构化知识被Transformer模型处理时出现的两种反复出现的内部失败模式:注意力过度依赖类似捷径的结构性线索,以及前馈表示中的语义错位,导致偏离检索到的证据。
基于先前的发现——线性化引入结构冗余,且LLM易于进行捷径学习——我们假设幻觉源于Transformer模型选择结构线索与整合语义证据之间的系统性失衡(如图1所示)。为探究这一假设,我们利用机制可解释性来解耦模型对外部证据和内部记忆的利用。我们引入两个指标:结构捷径依赖度(SSR),利用注意力头量化对线性化输入中结构规律性的注意力集中程度;以及语义对齐分数(SAS),利用前馈网络评估生成过程中内部表示与支撑证据之间的对齐程度。
在单跳和多跳图推理以及表格数据的评估中,我们的相关性和分布分析揭示了两种反复出现的模式:(i) 注意力过度集中在类似捷径的结构性线索上(例如,线性化知识图谱三元组中的最小查询-答案路径);(ii) 前馈表示未能维持对所提供知识的语义锚定,内部状态逐渐偏离证据,退回到参数化记忆。此外,基于象限的分析表明,由SSR捕捉的注意力模式随任务复杂性和结构化知识格式而变化,而由SAS捕捉的维持内部表示语义锚定的能力在减轻幻觉方面扮演着更稳定的角色。重要的是,这些机制信号不仅是描述性的——它们能实现实际干预。我们证明,SSR和SAS可用于构建轻量级、即插即用的幻觉检测器,在不进行任何模型修改或微调的情况下,优于现有的基于置信度和一致性的基线方法。
## 2 背景与相关工作
先前关于LLM可解释性的工作已研究了自注意力和隐藏表示等内部机制如何影响模型行为。
### 2.1 注意力头
尽管注意力权重并非模型决策的忠实解释,但它们提供了有用洞见,揭示Transformer如何在序列中路由信息和分配关注焦点(Jain and Wallace, 2019; Serrano and Smith, 2019; Wiegreffe and Pinter, 2019)。重要的是,这种分配高度选择而非均匀:许多注意力头持续关注有限的token子集,而非整合整个上下文。例如,先前的分析已表明,注意力头反复关注特定的语言或结构元素,如句法关系或特殊标记(Clark et al., 2019)。
当结构化知识被线性化为序列时,我们预期这种选择性会带来重大挑战,因为原始的关系依赖不再显式表示。结果,注意力分配倾向于集中在输入的一小部分上,可能使其他关键相关证据未被充分利用,导致拓扑覆盖失败。在本工作中,我们考察当LLM推理线性化结构化知识时,这种注意力集中是否以及如何与幻觉相关。
### 2.2 前馈层(FFN)
虽然自注意力聚合token级信息,但前馈网络(FFN)将这些信号转换为直接塑造模型输出的中间表示。作为存储参数化知识的主要基质(Geva et al., 2021),FFN不仅仅传递选择的信息;它们根据预训练中学到的模式主动修改信息(Geva et al., 2022; Kobayashi et al., 2024)。先前工作表明,当外部证据较弱或模糊时,内部参数化知识可能覆盖检索到的上下文,导致基于模型先验的知识驱动型幻觉(Tao et al., 2024; Farahani and Johansson, 2024)。
一个关键脆弱性出现在处理必须线性化为token序列的结构化知识时。与自然语言不同——其句法结构隐式保留关系意义——线性化移除了显式结构约束。这种扁平化削弱了FFN的语义支撑,可能允许参数化先验主导并导致表示漂移。在本工作中,我们考察内部模型表示与线性化结构化知识之间的对齐是否以及如何与幻觉相关。
#### 综合。
总之,先前的机制研究加深了我们对Transformer中注意力和表示的理解,主要是在非结构化自然语言的背景下。我们的工作填补了一个关键空白,通过考察当处理已被扁平化为token序列的结构化知识时,注意力和前馈表示如何相互作用并失效。
## 3 机制诊断指标
我们引入两个诊断指标——结构捷径依赖度(SSR)和语义对齐分数(SAS)——来探针结构化知识推理的内部机制。它们的实现细节和解释分别在附录A和附录B中提供。通过控制分析(附录C.3,附录C.4),我们进一步验证这两个指标捕捉的是有意义的信号,而非结构启发式或表面词汇重叠的人为产物。
### 3.1 结构捷径依赖度(SSR)
我们假设,当大语言模型处理已被扁平化为token序列的结构化知识时,注意力分配变得越来越集中在有限的结构性线索子集上。特别是,模型可能将注意力集中在一组最小的结构显著线索上(后文称为*核心结构线索*),这些线索看起来直接将查询与一个看似合理的答案相连,而不是整合全部支撑证据。为了在结构化知识设置中量化这种注意力偏差,我们提出*结构捷径依赖度(SSR)*,它衡量*模型在答案生成过程中,其注意力过度依赖一组最小的、类似捷径的结构性线索的程度*。
#### 核心结构线索。
我们将*核心结构线索*(S)定义为建立查询与答案之间直接连接的最小token子集。虽然这些线索可能通过学习关联触发候选答案,但通常缺乏事实验证所需的全面关系约束。其补集S̄(上下文线索)提供了锚定和验证直接连接所需的关系环境和全局约束。我们认为,过分依赖S而牺牲S̄,表明模型绕过了上下文验证,从而导致幻觉。
#### 公式。
设A = {a₁, ..., aₙ} 表示生成答案token的位置。对于每个解码器层 l ∈ [1, L] 和注意力头 h ∈ [1, H],令 e_{l,h,i,j} 为从答案位置 i ∈ A 到源位置 j 的原始注意力分数。我们应用softmax函数获得归一化的注意力权重:
α_{l,h,i,j} = exp(e_{l,h,i,j}) / Σ_k exp(e_{l,h,i,k}) (1)
分配给核心结构线索 S 和上下文结构线索 S̄ 的总注意力质量定义为:
α_{l,h,i,S} = Σ_{j∈S} α_{l,h,i,j}, α_{l,h,i,S̄} = Σ_{j∈S̄} α_{l,h,i,j} (2)
我们将SSR定义为流向核心线索与上下文线索的注意力质量之间的平均差异:
SSR = (1 / (L·H·|A|)) Σ_{l=1}^L Σ_{h=1}^H Σ_{i∈A} (α_{l,h,i,S} - α_{l,h,i,S̄}) (3)
由于 α_{l,h,i,S} + α_{l,h,i,S̄} = 1(假设 S 和 S̄ 划分输入序列),SSR 的范围为 [-1, 1]。
#### 实例化。
在我们的研究中,我们针对不同知识格式实例化这些集合。对于基于图的数据,S 对应最短路径三元组。对于表格数据,S 指核心结构三元组(通常为1-2个),这些三元组从特定行中提取,同时包含问题实体(或匹配问题列标题)和答案单元格,从而直接满足查询的关系约束。
### 3.2 语义对齐分数(SAS)
先前工作表明,前馈层(FFN)可能无法忠实地整合检索到的证据,反而依赖预训练的参数化知识(Sun et al., 2024; Tao et al., 2024)。我们认为,当结构化知识被线性化为token序列时,这种倾向会加剧,因为即使注意力正确分配,语义内容在线性化过程中也会被碎片化,削弱了FFN内表示融合可用的约束。为了量化这种表示层面的漂移,我们提出*语义对齐分数(SAS)*,它衡量模型在生成过程中其内部答案表示在多大程度上保持锚定于输入中提供的结构化知识。
#### 支撑上下文集(SCS)。
为了提供一个语义参考来评估模型在生成过程中其内部表示是否保持锚定,我们定义*支撑上下文集*(E)为输入元素的集合……相似文章
理解LLM中新知识诱导的事实幻觉:分析与解释
本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。
大语言模型真的知道自己不知道什么吗?内部状态主要反映知识回忆而非真实性
本文质疑了大语言模型能够通过内部信号可靠区分幻觉输出和事实输出的假设,论证内部状态主要反映知识回忆而非真实性。作者提出了一套幻觉分类法(相关性幻觉与非相关性幻觉),并证明相关性幻觉的隐藏状态几何特性与事实输出重叠,使得标准检测方法失效。
思维链削弱多模态大模型的视觉空间推理能力
研究表明,由于捷径学习和仅凭文本臆造视觉细节,思维链提示会损害多模态大模型在视觉空间推理方面的表现。
PRISM:探究大语言模型幻觉中的推理、指令与源记忆
研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。
幻觉作为承诺失败:大型语言模型在知晓答案的情况下仍然犯错
本文研究了大型语言模型在其生成时间分布中已有正确答案时仍产生幻觉的现象。通过引入答案可用性的语义概念,作者表明16-47%的指令调优模型幻觉发生在正确概念已经表示的情况下,并且这一比例随着模型规模增加而上升。他们指出,指令调优强化了答案承诺,使得有用性和自信幻觉成为同一枚硬币的两面。