TPA: 用于检测RAG中幻觉的下一个令牌概率归因
摘要
TPA提出了一种新颖的方法,通过将下一个令牌概率归因于七个不同的源头(查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm、初始嵌入),并按词性标签聚合,来检测RAG系统中的幻觉。该方法在包括Llama2、Llama3、Mistral和Qwen在内的五个大语言模型上实现了最先进的性能。
arXiv:2512.07515v4 公告类型:替换
摘要:检测检索增强生成(RAG)中的幻觉仍然是一个挑战。以往的方法将幻觉归因于FFN中存储的内部知识与检索上下文之间的二元冲突。然而,这一视角是不完整的,未能考虑到LLM其他组件的影响,例如用户查询、之前生成的令牌、自身令牌和最终LayerNorm调整。为了全面捕捉这些组件对幻觉检测的影响,我们提出了TPA,它在数学上将每个令牌的概率归因于七个不同的源头:查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm和初始嵌入。这种归因量化了每个源头对下一个令牌生成的贡献程度。具体地,我们按词性(POS)标签聚合这些归因分数,以量化每个模型组件对响应中特定语言类别生成的贡献。通过利用这些模式(如检测名词过度依赖LayerNorm的异常现象),TPA能够有效识别产生幻觉的响应。大量实验表明,TPA实现了最先进的性能。
查看缓存全文
缓存时间: 2026/04/20 08:31
# RAG 中幻觉检测的下一个令牌概率归因法
来源:https://arxiv.org/html/2512.07515
Guangquan Zhang
澳大利亚人工智能研究所 (AAII)
悉尼科技大学
澳大利亚新南威尔士州乌尔蒂莫 2007
\{Pengqian\.Lu@student\., Jie\.Lu@, Anjin\.Liu@, Guangquan\.Zhang@\}uts\.edu\.au
###### 摘要
检测检索增强生成 (RAG) 中的幻觉仍然是一个关键的可靠性挑战,因为无根据的响应可能在高风险应用中造成严重后果,例如临床决策支持、法律研究助手和基于检索证据进行操作的自主代理。以往的方法将幻觉归因于 FFN 中存储的内部知识与检索上下文之间的二元冲突。然而,这种观点是不完整的,未能考虑到 LLM 的其他组件的影响,例如用户查询、先前生成的令牌、自身令牌和最终 LayerNorm 调整。为了全面捕捉这些组件对幻觉检测的影响,我们提出了 TPA,它在数学上将每个令牌的概率归因于七个不同的来源:查询、RAG 上下文、过往令牌、自身令牌、FFN、最终 LayerNorm 和初始嵌入。这种归因量化了每个来源对下一个令牌生成的贡献。具体来说,我们按词性 (POS) 标签聚合这些归因分数,以量化每个模型组件对响应中特定语言类别生成的贡献。通过利用这些模式,例如检测名词严重依赖 LayerNorm 的异常,TPA 能有效识别幻觉响应。对五个 LLM(Llama2-7B/13B、Llama3-8B、Mistral-7B 和 Qwen3-8B)进行的广泛实验表明,TPA 在各种架构上都达到了最先进的性能。
## 1 引言
大语言模型 (LLM) 尽管能力强大,但容易产生幻觉。因此,检索增强生成 (RAG) 被广泛使用,通过将模型与外部知识相关联来缓解幻觉。然而,RAG 系统并不完美。它们仍然可能通过忽略或误解检索到的信息而产生幻觉。因此,检测这些失败是一个关键挑战。
遵循先前的研究,我们将**幻觉**定义为包含与检索到的 RAG 上下文不一致的内容的响应(假设上下文相关且正确),不包括检索错误、过时知识和模糊证据。风险随着赌注增加:临床决策支持中虚幻的药物剂量可能伤害患者,法律研究助手中虚构的案例引用导致了受制裁的法庭提交,自主代理中无根据的中间响应会传播到下游行为。
幻觉检测的主流范例通常依赖于手工制作的代理信号。例如,常见的方法通过一致性检查或标量不确定性指标(如语义熵)来检测幻觉。然而,这些方法只衡量幻觉的症状,如输出方差或表面置信度,而不是潜在的架构原因。因此,当模型自信地错误时,它们经常失效。
为了解决幻觉的根本原因,最近的研究已将焦点转向模型的内部表示。先驱性工作如 ReDeEP 明确假设 RAG 上下文是正确的。它们揭示 RAG 中的幻觉通常源于内部参数知识(存储在 FFN 中)对检索到的外部上下文的不成比例的主导。这一洞察激发了一个根本问题:
**FFN 和 RAG 之间的二元冲突是幻觉的唯一原因吗?LayerNorm 和用户查询等关键组件经常被忽视。这些来源的贡献也会驱动幻觉吗?**
在本文中,我们扩展了分析范围以涵盖 transformer 残差流沿线的所有可加性组件。这种方法能够基于模型的完整内部机制进行检测,而不是依赖于部分代理信号。为了实现这一点,我们也假设 RAG 上下文包含相关信息,并引入 **TPA**(用于检测 RAG 中幻觉的下一个令牌概率归因法)。该框架在数学上将每个令牌的最终概率归因于七个不同的来源:查询、RAG、过往、自身令牌、FFN、最终 LayerNorm 和初始嵌入。这七个部分的归因分数总和等于令牌的最终概率,确保我们捕捉完整的生成过程。
为了计算这些归因,我们提出了一个类似于 nostalgebraist (2020) 的探针函数,它使用模型的 unembedding 矩阵直接从中间残差流状态读出下一令牌概率。具体地,对于残差流上的每个组件,我们将其贡献定义为在应用该组件**之前**和**之后**探测的下一令牌概率的变化。这样,我们可以计算来自初始嵌入、注意块、FFN 和最终 LayerNorm 的贡献。对于注意块,我们根据其注意权重进一步将其贡献分配给查询、RAG、过往和自身令牌。
然而,这些注意分数对于检测是不充分的。对内部参数知识(FFN)的高度依赖不一定意味着幻觉。这种模式对于像"the"或"of"这样的功能词是预期的。但当在命名实体中发现时,它变得高度可疑。因此,平等对待所有令牌无法捕捉这些关键区别。
为了捕捉这一区别,我们使用词性 (POS) 标签聚合归因分数。我们采用 POS 标签来捕捉综合的句法模式。与仅限于特定实体类型的命名实体识别 (NER) 不同,POS 标记覆盖所有令牌(包括数字和介词等关键类别)并保持高计算效率。
图 1 说明了 TPA 如何将单个响应转化为检测特征:我们首先计算令牌级来源归因,然后按 POS 标签聚合它们。第二步至关重要,因为幻觉信号因不同的词性而异。例如,名词的低 RAG 贡献或数字的高 LN 贡献通常表明幻觉。如果我们仅使用原始令牌级归因分数而不考虑 POS 信息,这些模式会更难捕捉。
我们的主要贡献是:
1. 我们提出了 TPA,一个新框架,在数学上将每个令牌的概率归因于七个不同的归因来源。这提供了令牌生成过程的全面机制视图。
2. 我们引入了一个句法感知的聚合机制。通过量化归因来源如何驱动不同的词性,这种方法使检测器能够识别特定实体中的异常,同时忽略良性的语法模式。
3. 广泛的实验证明 TPA 达到了最先进的性能。我们的框架还提供了透明的可解释性,自动发现新颖的机制特征,例如异常的 LayerNorm 贡献,超越了传统的 FFN-RAG 二元冲突。
## 2 相关工作
##### 不确定性和代理指标
这一类别中的方法通过输出不一致性或代理信号估计幻觉。一些方法使用模型集合量化不确定性,或通过测量来自单个模型的多个采样生成的自一致性。其他方法利用从单个生成过程中可计算的轻量级代理分数,例如基于能量的分布外 (OOD) 代理分数、建模每个分布内类的分布式原型学习(用于 OOD 检测的类条件连续分布)、条件 LM 的基于嵌入的距离分数和令牌级不确定性启发式。虽然高效,但这些分数提供间接信号(例如置信度或分布转移),因此可能不是事实正确性的完美指标。
##### 分布转移和预测分布建模
幻觉也可以被视为分布转移下的失败。最相关的是,带有辅助变量的知识蒸馏统一了 logit 级和特征级预测分布匹配。相关的分布转移线包括长尾制度下的偏差感知预测、概念漂移下的在线自适应、结构化表示学习(如深度子空间聚类和多重社区检测)。相比之下,TPA 将模型的内部下一令牌分布分解为显式源贡献。
##### 基于 LLM 的评估
外部 LLM 也用作验证器。在 RAG 设置中,输出可以根据检索到的证据进行检查,或通过声明提取和基于参考的验证,LLM 作为判断基线通常使用精心设计的提示进行实例化。自动评估套件也已开发。其他策略包括交叉检查以暴露不一致,或微调检测器进行跨度级定位。还探索了结构化多代理框架用于领域特定推理管道(例如具有法定法律基础的法律咨询),其中验证器协调证据检索和响应优化。然而,许多这些方法需要额外的 LLM 调用或多步验证。
##### 探测内部激活
最近的工作从内部表示中提取事实性信号,例如线性真实方向或推理时转移,以及在隐藏状态上训练的基于探针的检测器。相关研究表明内部状态对幻觉检测保持预测力。除了检测外,机制分析显示 FFN 和 RAG 上下文之间的冲突,轻量级指标使用注意头范数。主动方法转向或编辑激活或调整解码概率进行诊断。相比之下,我们将最终令牌概率分解为细粒度来源。
## 3 方法论
如图 2 所示,TPA 分三个阶段运作,可以通过完全并行的教师强制传递实现。给定生成的响应序列 **y** 的长度 T,我们可以将整个序列输入模型,使用标准的因果掩码来提取所有 T 个令牌的隐藏状态和注意图。这避免了自回归重采样,同时实现了高效的归因计算。
我们首先推导令牌概率的完整分解(第 3.2 节),然后将注意贡献归因于特定的归因来源(第 3.3 节)。最后,我们聚合这些分数以量化来源如何驱动不同的词性(第 3.4 节)。伪代码和复杂性分析在附录中提供。我们报告复杂性而不是实际运行时间,因为后者在不同的实现硬件中变化。
为了为我们的方法提供理论基础,我们首先形式化 transformer 的架构。
### 3.1 预备知识:Transformer 架构
#### 3.1.1 记号相似文章
RAGognizer:通过检测头集成实现幻觉感知微调
RAGognizer 提出了一种幻觉感知微调方法,该方法将轻量级检测头集成到大语言模型(LLMs)中,以实现语言建模与幻觉检测的联合优化,适用于 RAG 系统。论文介绍了 RAGognize,一个包含自然发生的闭域幻觉及其词元级标注的数据集,并展示了在降低幻觉率的同时,实现了最先进的幻觉检测性能,且不损害语言质量。
首个Token已知:用于幻觉检测的单次解码置信度
本文介绍了一种利用大语言模型生成首Token的置信度来检测幻觉的方法,该方法仅需执行单次解码步骤。
FLaG:细粒度潜在分组用于幻觉检测
FLaG 是一个轻量级的幻觉检测框架,适用于大语言模型,通过潜在证据组和基于能量的路由对正确性进行建模,在多个基准测试中实现了 SOTA 性能。
下一个令牌预测何时有用?边际化、遍历性、混合可识别性、局部充分性、RAG、工具与编程
本文区分了语言建模中常被混淆的三个概率对象——完整条件语言过程、边际纯文本法则和模型诱导分布——并分析了下一个令牌预测有用的条件,将 RAG 和工具解释为条件充分性设备。
关注未见质量:通过软混合字母估计揭示 LLM 幻觉
研究者提出 SHADE,一种混合估计器,在仅能获取少量黑盒样本时,融合 Good-Turing 覆盖率与图谱线索,量化语义不确定性并检测大模型幻觉。