长文本幻觉检测的健全性检验
摘要
本文介绍了一种受控不变性方法以及两种测试(Force 和 Remove),旨在确定大语言模型(LLM)幻觉检测器是依赖于推理过程还是最终答案的特征。研究提出了 TRACT,这是一种基于词汇特征的轻量级评分器,证明了其在不依赖答案层面线索的情况下仍能保持鲁棒的性能。
查看缓存全文
缓存时间: 2026/05/12 06:41
# 长文本幻觉检测的健全性检验
**来源:** https://arxiv.org/html/2605.08346
**作者:** Geigh Zollicoffer (Los Alamos National Laboratory) & Minh Vu (Los Alamos National Laboratory) & Hongli Zhan (The University of Texas at Austin) & Raymond Li (University of British Columbia) & Manish Bhattarai (Los Alamos National Laboratory)
###### 摘要
针对大型语言模型的幻觉检测方法越来越多地作用于思维链(chain-of-thought)推理轨迹,但目前尚不清楚这些方法是在评估推理本身,还是仅仅利用了最终答案的表面相关性。我们提出了一种受控不变性(controlled-invariance)方法论,通过两种预言机测试(oracle tests)来揭示这一区别:**Force** 测试将每个响应的最终答案替换为真实值(ground truth),同时保留推理轨迹;**Remove** 测试则删除答案宣告步骤,但保持轨迹完整。这揭示了它们的预测力是否源自答案层面的伪影(artifacts),而非中间推理的结构或有效性。我们进一步证明,一旦控制了这些伪影,有效的检测并不一定需要复杂的学习表示:TRACT 是一个基于词汇轨迹特征(包括模糊化趋势、步长动态性和跨响应词汇收敛性)的轻量级评分器,它在保持与现有基线相当甚至更优性能的同时,展现了强大的鲁棒性。这些发现表明,当前推理感知幻觉检测的核心挑战并非轨迹中缺乏信号,而是未能将其与端点线索隔离开来。
## 1 引言
随着大型语言模型(LLMs)越来越多地用于推理和决策支持,其可靠性取决于能否检测出生成的输出是否缺乏依据、不一致或虚假。幻觉检测旨在解决这一问题,但一个核心问题仍未得到解决:当前的检测器是在评估推理过程本身,还是主要利用了最终答案的表面相关性?
这个问题对于长文本推理尤为重要。最近的幻觉和不确定性检测器越来越多地作用于思维链轨迹,通过比较采样响应、测量语义一致性或评分推理路径的一致性来进行评估 \([Wang et al., 2026](https://arxiv.org/html/2605.08346#bib.bib5)\)。然而,在未修改轨迹上的强劲表现本身并不能证明检测器是“推理忠实”(reasoning-faithful)的。一种方法可能看起来在评估中间推理,但实际上依赖于端点线索、答案格式、响应长度或最终答案之间的粗略一致性。在这种情况下,报告的增益可能会夸大向真正推理评估迈进的进展。
我们引入了一种受控不变性框架来暴露这种故障模式。核心思想很简单:如果检测器声称要评估推理轨迹,那么保留推理主体的变换不应破坏其区分正确与错误推理的能力。我们通过两个预言机健全性检验(oracle sanity checks)实例化了这一想法,如图 1 所示 \([Figure 1](https://arxiv.org/html/2605.08346#S1.F1)\)。在 **Force** 测试中,我们将最终答案替换为真实值并规范其呈现方式,同时保持中间推理不变。在 **Remove** 测试中,我们删除显式的答案宣告步骤,同样保留推理主体。这两种干预都不会修复错误的推导,也不会破坏有效的推导。因此,一个轨迹忠实的检测器在这两种条件下应保持信息性;大幅度的变化表明其依赖于答案层面的伪影,而非推理证据。
> **图 1 说明:** 两种健全性检验操作。**Force** 仅将最终答案替换为真实值;**Remove** 删除显式的答案宣告步骤。两者都保留了推理主体,因此轨迹忠实的检测器应保持信息性。
将这些测试应用于四个基准和五个模型表明,许多现有检测器的轨迹忠实度低于标准评估所暗示的水平。如图 2 所示 \([Figure 2](https://arxiv.org/html/2605.08346#S1.F2)\),在 **Force** 或 **Remove** 下,几种方法远离对角线移动,意味着尽管中间推理轨迹得以保留,但其判别行为发生了实质性变化。这不仅仅是校准问题:它表明某些检测器从端点可用性、答案标准化或其他与推理质量正交的伪影中获得了大部分信号。
> **图 2 说明:** 跨四个基准和五个模型的健全性检验结果。每个点代表一个评分器-模型-基准实验;$x$ 为原始轨迹上的 AUC,$y$ 为 **Force** 或 **Remove** 后的 AUC。轨迹忠实的评分器应靠近对角线,因为推理主体得以保留。TRACT 在两种干预下拥有最多的忠实设置。
随后我们问:鲁棒的轨迹级检测是否需要复杂的学习表示?令人惊讶的是,答案是否定的。我们提出了 TRACT,这是一个由词汇轨迹特征构建的轻量级黑盒评分器:局部连贯性线索、结构动态(如模糊词和步长趋势)以及跨样本内容收敛性。TRACT 不是证明检查器,也不验证每个中间步骤。相反,它针对未解决推理的可观察症状:那些游移不定、日益模糊、结构不规则或在独立样本间无法收敛的轨迹。由于这些特征是从推理主体而非端点字符串计算的,TRACT 天然适合 **Force/Remove** 设置。
我们的结果支持两个结论。第一,预言机鲁棒性测试是推理感知幻觉检测的必要健全性检验:没有它,检测器可能在依赖答案层面伪影的同时显得成功。第二,简单、可解释的轨迹统计中确实存在有用的轨迹级信号。因此,挑战不仅在于设计更强的检测器,还在于评估其强度是否来自其旨在评估的推理过程。
## 2 背景与相关工作
#### 基于采样的不确定性
幻觉检测的一种常见黑盒方法是采样多个响应并测量其分歧:知道答案的模型应产生相互一致的输出,而幻觉或不确定的生成往往会产生分歧。语义熵 \([Farquhar et al., 2024](https://arxiv.org/html/2605.08346#bib.bib12); [Kuhn et al., 2023](https://arxiv.org/html/2605.08346#bib.bib24)\) 通过聚类意义等价的响应并计算结果语义类上的熵来形式化这一想法。后续工作细化了表示或分歧度量:Kernel Language Entropy 用连续相似性核替换硬聚类 \([Nikitin et al., 2024](https://arxiv.org/html/2605.08346#bib.bib8)\),而基于嵌入的方法如 SINdex \([Abdaljalil et al., 2025](https://arxiv.org/html/2605.08346#bib.bib9)\) 和 Semantic Embedding Uncertainty (SEU) \([Grewal et al., 2024](https://arxiv.org/html/2605.08346#bib.bib7)\) 使用密集句子表示更高效地估计不一致性。基于扰动的变体进一步对输入变换进行采样,而不仅仅是模型随机性 \([Gao et al., 2024](https://arxiv.org/html/2605.08346#bib.bib15)\)。这些方法提供了强大的黑盒不确定性信号,但其分数通常是在完整响应或最终答案语义上计算的,使得难以判断它们是在测量推理质量还是端点一致性。
#### 感知推理轨迹的检测
思维链提示 \([Wei et al., 2022](https://arxiv.org/html/2605.08346#bib.bib47)\) 和长文本推理模型使中间轨迹可见,促使检测器不仅评估产生了什么答案,还评估答案是如何得出的。RACE \([Wang et al., 2026](https://arxiv.org/html/2605.08346#bib.bib5)\) 代表了这一方向,结合了样本间推理路径一致性、答案不确定性、推理-答案对齐以及轨迹内连贯性。此类方法比仅基于答案的不确定性估计器更接近推理感知的幻觉检测,但它们也引入了一个新的评估问题:高性能可能仍然来自端点线索、答案对齐或粗略一致性,而非来自对推理主体的轨迹忠实评估。我们的 **Force** 和 **Remove** 测试旨在揭示这一区别。
#### 统一的 UQ 框架和基线
最近的统一框架将这些信号收集到校准的不确定性管道中。例如,`uqlm` \([Bouchard et al., 2026](https://arxiv.org/html/2605.08346#bib.bib6)\) 包括精确匹配重复和多样性分数 \([Cole et al., 2023](https://arxiv.org/html/2605.08346#bib.bib19)\)、n-gram 和 BERTScore 自一致性 \([Manakul et al., 2023a](https://arxiv.org/html/2605.08346#bib.bib20); [Zhang et al., 2020](https://arxiv.org/html/2605.08346#bib.bib21)\)、基于 NLI 的非矛盾概率 \([Chen and Mueller, 2023](https://arxiv.org/html/2605.08346#bib.bib22)\)、句子嵌入相似性 \([Reimers and Gurevych, 2019](https://arxiv.org/html/2605.08346#bib.bib23)\) 以及语义熵变体 \([Farquhar et al., 2024](https://arxiv.org/html/2605.08346#bib.bib12); [Kuhn et al., 2023](https://arxiv.org/html/2605.08346#bib.bib24)\)。综述同样强调不确定性量化是提高 LLM 可靠性的核心途径,同时突出了准确性、成本、访问需求和可解释性之间的权衡 \([Shorinwa et al., 2025](https://arxiv.org/html/2605.08346#bib.bib16); [Kang et al., 2025](https://arxiv.org/html/2605.08346#bib.bib18)\)。我们将这些族类作为黑盒基线,因为它们涵盖了当前幻觉检测中的主要操作信号:答案重复、词汇重叠、嵌入相似性、NLI 一致性、语义熵和推理路径一致性。
#### 白盒与黑盒访问
白盒检测器利用令牌概率或隐藏状态激活在一次传递中估计可靠性 \([Duan et al., 2024](https://arxiv.org/html/2605.08346#bib.bib1); [Zollicoffer et al., 2025](https://arxiv.org/html/2605.08346#bib.bib10); [Phukan et al., 2025](https://arxiv.org/html/2605.08346#bib.bib11); [Binkowski et al., 2025](https://arxiv.org/html/2605.08346#bib.bib17); [Fadeeva et al., 2024](https://arxiv.org/html/2605.08346#bib.bib25)\)。这些方法可能有效,但需要许多闭源系统不可用的模型内部信息。因此,我们专注于黑盒设置,其中检测器仅观察到采样的文本轨迹。在此设置下,我们的目标不仅是提高 AUC,而是测试当答案层面伪影受控时,检测器的信号是否仍然有效。
## 3 TRACT: 轨迹修辞与连贯性轨迹
正确的推理轨迹倾向于*稳定*(settle)。随着模型接近解决方案,其步骤通常变得更加定向:词汇稳定,中间声明变得更加一致,独立采样的轨迹在进展方式和终点上开始彼此相似。相比之下,错误的轨迹往往*游移*(wanders):它提出不必要的问题,重启或模糊处理,在应压缩时扩展,并在平行样本所需步骤数上存在分歧。
TRACT 在完全黑盒的采样设置中实现了这一观察。给定提示 $x$,我们从模型中采样 $K$ 个独立推理轨迹 $\{r^{(k)}\}_{k=1}^K$。每个轨迹写作文本步骤序列 $r^{(k)} = (s_1^{(k)}, \dots, s_{T_k}^{(k)})$。文本步骤是响应中暴露的最小推理单元,例如编号行、项目符号、句子级推理或明确分离的中间陈述。例如,在思维链响应中,“首先,计算总成本”和“因此,剩余金额为 12”将被视为两个单独的步骤。在计算 TRACT 特征之前,排除诸如“最终答案:”之类的答案宣告步骤,因此评分器操作于推理主体而非端点字符串。
TRACT 不需要访问 logits、隐藏状态、答案标签、嵌入模型或辅助蕴涵模型。相反,它读取采样轨迹本身并提取轻量级轨迹级特征,描述推理的行为方式。特征分为三组,每组对应不同的诊断问题:
i) **连贯性 (Coherence):** 每个轨迹平均看起来如何?
ii) **结构 (Structure):** 随着推理推进,轨迹如何演变?
iii) **内容 (Content):** 独立轨迹是否收敛于相同的中间和最终词汇?
表 1 \([Table 1](https://arxiv.org/html/2605.08346#S3.T1)\) 总结了完整的 TRACT 特征集。表格围绕每个特征的可观察特征组织:它检测什么模式,该模式是否增加幻觉分数,以及如何计算统计量。下面的文字解释了为什么这些特征是有用的。
**表 1: TRACT 特征清单。** TRACT 将采样的推理轨迹映射到三个可解释的特征块中。“直觉”列给出了诊断特征;“定义”列给出了实现级统计量。此处 $T_k$ 是轨迹 $k$ 中的步骤数,$s_i^{(k)}$ 是步骤 $i$,$w_i^{(k)} = \|s_i^{(k)}\|$ 是其词数,$q_i^{(k)}$ 是其问号计数,$h_i^{(k)}$ 是步骤中来词典 $\mathcal{H}$ 的模糊词(hedge words)数量,$\mathcal{U}_i^{(k)}$ 是小写一元组集合,$\mathcal{E}_i^{(k)}$ 是大写令牌集合,$m_k = \lfloor T_k/2 \rfloor$,且 $J(A,B) = \|A \cap B\| / \|A \cup B\|$ 是 Jaccard 相似性。“Sign”指示较大的特征值是增加 (+) 还是减少 (-) TRACT 不正确性分数。
#### 连贯性特征:每个轨迹是否听起来局部已解决?
连贯性块捕获轨迹是否具有已解决解决方案的局部修辞特征。当模型知道如何进行下一步时,其步骤往往直接陈述中间主张并继续前进。当它不确定时,轨迹往往变得具有询问性、过度限定或重复。`QuestionRate` 捕获显式自我提问,`WordsPerStep` 捕获冗长和过度解释,`PlateauFrac` 捕获未能发展的步骤。这一块之所以有用,是因为许多推理失败在最终答案之前就已显现:模型围绕问题打转,询问自己该做什么,或花费词语来补偿缺失的解决方案路径。因此,连贯性特征是局部未解决状态的微弱但有用的症状。
#### 结构特征:轨迹是否保持其轨迹?
结构块捕获推理是随着时间的推移变得更加有组织还是更加不稳定。正确的轨迹可以很长或很短,但通常保持连贯的轨迹:分解、中间工作和收敛。错误的轨迹更经常失去这种轨迹。模糊处理可能会增加,步长可能变得不规则,或者一个采样轨迹可能变得比其他轨迹长得多,因为模型无法确定一条路径。TRACT 通过五个结构签名来衡量这一点。`HedgeSlope` 跟踪不确定性语言是否随时间增长 \([Lakoff, 1973](https://arxiv.org/html/2605.08346#bib.bib3); [Katerenchuk and Levitan, 2024](https://arxiv.org/html/2605.08346#bib.bib42)\)。`ColonFrac` 通过案例、列表或子主张捕获显式组织。`MaxStepWc` 捕获...相似文章
PARALLAX: 区分真实幻觉检测与基准构建伪影
本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。
PRISM:探究大语言模型幻觉中的推理、指令与源记忆
研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
HalluScore:大语言模型幻觉问答基准
介绍HalluScore,一个结构化的阿拉伯语问答基准,用于评估大语言模型在不同推理难度、知识领域和文化背景下的幻觉。包含827个带有验证证据和注释的问题,已在17个大语言模型上测试。
大语言模型真的知道自己不知道什么吗?内部状态主要反映知识回忆而非真实性
本文质疑了大语言模型能够通过内部信号可靠区分幻觉输出和事实输出的假设,论证内部状态主要反映知识回忆而非真实性。作者提出了一套幻觉分类法(相关性幻觉与非相关性幻觉),并证明相关性幻觉的隐藏状态几何特性与事实输出重叠,使得标准检测方法失效。