TPA: 用于检测RAG中幻觉的下一个令牌概率归因

arXiv cs.CL 2026/04/20 04:00 论文

摘要

TPA提出了一种新颖的方法，通过将下一个令牌概率归因于七个不同的源头（查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm、初始嵌入），并按词性标签聚合，来检测RAG系统中的幻觉。该方法在包括Llama2、Llama3、Mistral和Qwen在内的五个大语言模型上实现了最先进的性能。

arXiv:2512.07515v4 公告类型：替换摘要：检测检索增强生成（RAG）中的幻觉仍然是一个挑战。以往的方法将幻觉归因于FFN中存储的内部知识与检索上下文之间的二元冲突。然而，这一视角是不完整的，未能考虑到LLM其他组件的影响，例如用户查询、之前生成的令牌、自身令牌和最终LayerNorm调整。为了全面捕捉这些组件对幻觉检测的影响，我们提出了TPA，它在数学上将每个令牌的概率归因于七个不同的源头：查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm和初始嵌入。这种归因量化了每个源头对下一个令牌生成的贡献程度。具体地，我们按词性（POS）标签聚合这些归因分数，以量化每个模型组件对响应中特定语言类别生成的贡献。通过利用这些模式（如检测名词过度依赖LayerNorm的异常现象），TPA能够有效识别产生幻觉的响应。大量实验表明，TPA实现了最先进的性能。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:31

# RAG 中幻觉检测的下一个令牌概率归因法

来源：https://arxiv.org/html/2512.07515

Guangquan Zhang
澳大利亚人工智能研究所 (AAII)
悉尼科技大学
澳大利亚新南威尔士州乌尔蒂莫 2007
\{Pengqian\.Lu@student\., Jie\.Lu@, Anjin\.Liu@, Guangquan\.Zhang@\}uts\.edu\.au

###### 摘要

检测检索增强生成 (RAG) 中的幻觉仍然是一个关键的可靠性挑战，因为无根据的响应可能在高风险应用中造成严重后果，例如临床决策支持、法律研究助手和基于检索证据进行操作的自主代理。以往的方法将幻觉归因于 FFN 中存储的内部知识与检索上下文之间的二元冲突。然而，这种观点是不完整的，未能考虑到 LLM 的其他组件的影响，例如用户查询、先前生成的令牌、自身令牌和最终 LayerNorm 调整。为了全面捕捉这些组件对幻觉检测的影响，我们提出了 TPA，它在数学上将每个令牌的概率归因于七个不同的来源：查询、RAG 上下文、过往令牌、自身令牌、FFN、最终 LayerNorm 和初始嵌入。这种归因量化了每个来源对下一个令牌生成的贡献。具体来说，我们按词性 (POS) 标签聚合这些归因分数，以量化每个模型组件对响应中特定语言类别生成的贡献。通过利用这些模式，例如检测名词严重依赖 LayerNorm 的异常，TPA 能有效识别幻觉响应。对五个 LLM（Llama2-7B/13B、Llama3-8B、Mistral-7B 和 Qwen3-8B）进行的广泛实验表明，TPA 在各种架构上都达到了最先进的性能。

## 1 引言

大语言模型 (LLM) 尽管能力强大，但容易产生幻觉。因此，检索增强生成 (RAG) 被广泛使用，通过将模型与外部知识相关联来缓解幻觉。然而，RAG 系统并不完美。它们仍然可能通过忽略或误解检索到的信息而产生幻觉。因此，检测这些失败是一个关键挑战。

遵循先前的研究，我们将**幻觉**定义为包含与检索到的 RAG 上下文不一致的内容的响应（假设上下文相关且正确），不包括检索错误、过时知识和模糊证据。风险随着赌注增加：临床决策支持中虚幻的药物剂量可能伤害患者，法律研究助手中虚构的案例引用导致了受制裁的法庭提交，自主代理中无根据的中间响应会传播到下游行为。

幻觉检测的主流范例通常依赖于手工制作的代理信号。例如，常见的方法通过一致性检查或标量不确定性指标（如语义熵）来检测幻觉。然而，这些方法只衡量幻觉的症状，如输出方差或表面置信度，而不是潜在的架构原因。因此，当模型自信地错误时，它们经常失效。

为了解决幻觉的根本原因，最近的研究已将焦点转向模型的内部表示。先驱性工作如 ReDeEP 明确假设 RAG 上下文是正确的。它们揭示 RAG 中的幻觉通常源于内部参数知识（存储在 FFN 中）对检索到的外部上下文的不成比例的主导。这一洞察激发了一个根本问题：

**FFN 和 RAG 之间的二元冲突是幻觉的唯一原因吗？LayerNorm 和用户查询等关键组件经常被忽视。这些来源的贡献也会驱动幻觉吗？**

在本文中，我们扩展了分析范围以涵盖 transformer 残差流沿线的所有可加性组件。这种方法能够基于模型的完整内部机制进行检测，而不是依赖于部分代理信号。为了实现这一点，我们也假设 RAG 上下文包含相关信息，并引入 **TPA**（用于检测 RAG 中幻觉的下一个令牌概率归因法）。该框架在数学上将每个令牌的最终概率归因于七个不同的来源：查询、RAG、过往、自身令牌、FFN、最终 LayerNorm 和初始嵌入。这七个部分的归因分数总和等于令牌的最终概率，确保我们捕捉完整的生成过程。

为了计算这些归因，我们提出了一个类似于 nostalgebraist (2020) 的探针函数，它使用模型的 unembedding 矩阵直接从中间残差流状态读出下一令牌概率。具体地，对于残差流上的每个组件，我们将其贡献定义为在应用该组件**之前**和**之后**探测的下一令牌概率的变化。这样，我们可以计算来自初始嵌入、注意块、FFN 和最终 LayerNorm 的贡献。对于注意块，我们根据其注意权重进一步将其贡献分配给查询、RAG、过往和自身令牌。

然而，这些注意分数对于检测是不充分的。对内部参数知识（FFN）的高度依赖不一定意味着幻觉。这种模式对于像"the"或"of"这样的功能词是预期的。但当在命名实体中发现时，它变得高度可疑。因此，平等对待所有令牌无法捕捉这些关键区别。

为了捕捉这一区别，我们使用词性 (POS) 标签聚合归因分数。我们采用 POS 标签来捕捉综合的句法模式。与仅限于特定实体类型的命名实体识别 (NER) 不同，POS 标记覆盖所有令牌（包括数字和介词等关键类别）并保持高计算效率。

图 1 说明了 TPA 如何将单个响应转化为检测特征：我们首先计算令牌级来源归因，然后按 POS 标签聚合它们。第二步至关重要，因为幻觉信号因不同的词性而异。例如，名词的低 RAG 贡献或数字的高 LN 贡献通常表明幻觉。如果我们仅使用原始令牌级归因分数而不考虑 POS 信息，这些模式会更难捕捉。

我们的主要贡献是：

1. 我们提出了 TPA，一个新框架，在数学上将每个令牌的概率归因于七个不同的归因来源。这提供了令牌生成过程的全面机制视图。

2. 我们引入了一个句法感知的聚合机制。通过量化归因来源如何驱动不同的词性，这种方法使检测器能够识别特定实体中的异常，同时忽略良性的语法模式。

3. 广泛的实验证明 TPA 达到了最先进的性能。我们的框架还提供了透明的可解释性，自动发现新颖的机制特征，例如异常的 LayerNorm 贡献，超越了传统的 FFN-RAG 二元冲突。

## 2 相关工作

##### 不确定性和代理指标

这一类别中的方法通过输出不一致性或代理信号估计幻觉。一些方法使用模型集合量化不确定性，或通过测量来自单个模型的多个采样生成的自一致性。其他方法利用从单个生成过程中可计算的轻量级代理分数，例如基于能量的分布外 (OOD) 代理分数、建模每个分布内类的分布式原型学习（用于 OOD 检测的类条件连续分布）、条件 LM 的基于嵌入的距离分数和令牌级不确定性启发式。虽然高效，但这些分数提供间接信号（例如置信度或分布转移），因此可能不是事实正确性的完美指标。

##### 分布转移和预测分布建模

幻觉也可以被视为分布转移下的失败。最相关的是，带有辅助变量的知识蒸馏统一了 logit 级和特征级预测分布匹配。相关的分布转移线包括长尾制度下的偏差感知预测、概念漂移下的在线自适应、结构化表示学习（如深度子空间聚类和多重社区检测）。相比之下，TPA 将模型的内部下一令牌分布分解为显式源贡献。

##### 基于 LLM 的评估

外部 LLM 也用作验证器。在 RAG 设置中，输出可以根据检索到的证据进行检查，或通过声明提取和基于参考的验证，LLM 作为判断基线通常使用精心设计的提示进行实例化。自动评估套件也已开发。其他策略包括交叉检查以暴露不一致，或微调检测器进行跨度级定位。还探索了结构化多代理框架用于领域特定推理管道（例如具有法定法律基础的法律咨询），其中验证器协调证据检索和响应优化。然而，许多这些方法需要额外的 LLM 调用或多步验证。

##### 探测内部激活

最近的工作从内部表示中提取事实性信号，例如线性真实方向或推理时转移，以及在隐藏状态上训练的基于探针的检测器。相关研究表明内部状态对幻觉检测保持预测力。除了检测外，机制分析显示 FFN 和 RAG 上下文之间的冲突，轻量级指标使用注意头范数。主动方法转向或编辑激活或调整解码概率进行诊断。相比之下，我们将最终令牌概率分解为细粒度来源。

## 3 方法论

如图 2 所示，TPA 分三个阶段运作，可以通过完全并行的教师强制传递实现。给定生成的响应序列 **y** 的长度 T，我们可以将整个序列输入模型，使用标准的因果掩码来提取所有 T 个令牌的隐藏状态和注意图。这避免了自回归重采样，同时实现了高效的归因计算。

我们首先推导令牌概率的完整分解（第 3.2 节），然后将注意贡献归因于特定的归因来源（第 3.3 节）。最后，我们聚合这些分数以量化来源如何驱动不同的词性（第 3.4 节）。伪代码和复杂性分析在附录中提供。我们报告复杂性而不是实际运行时间，因为后者在不同的实现硬件中变化。

为了为我们的方法提供理论基础，我们首先形式化 transformer 的架构。

### 3.1 预备知识：Transformer 架构

#### 3.1.1 记号

TPA: 用于检测RAG中幻觉的下一个令牌概率归因

相似文章

RAGognizer：通过检测头集成实现幻觉感知微调

首个Token已知：用于幻觉检测的单次解码置信度

FLaG：细粒度潜在分组用于幻觉检测

下一个令牌预测何时有用？边际化、遍历性、混合可识别性、局部充分性、RAG、工具与编程

关注未见质量：通过软混合字母估计揭示 LLM 幻觉

提交意见反馈