零源大语言模型幻觉检测:基于类人标准探询方法
摘要
提出HCPD,一种零源幻觉检测方法,采用类人标准探询机制将判断分解为可解释的标准,优于当前最先进的基线方法。
arXiv:2606.12900v1 公告类型:新
摘要:大型语言模型(LLMs)常因生成事实错误或不忠实的内容而产生幻觉,对其安全使用构成重大风险。在零源约束下(即无法获取模型内部信息或外部参考,检测仅能依赖文本查询-答案对),检测此类幻觉尤为困难。本文提出一种类似人类评估者多方面推理的范式——基于类人标准探询的幻觉检测(HCPD)。其核心是类人标准探询(HCP)机制,该机制使LLM智能体自适应地将判断分解为一组带权重的可解释标准,并聚合各标准得分以得到最终的真实性度量。为实现这种自适应能力,我们引入了一种基于奖励的对齐方案,仅使用语义一致性的弱监督。在推理阶段,我们采用多采样聚合策略,在确保鲁棒决策的同时保持完全可解释性。我们进一步提供了理论分析以支持方法的可靠性。大量实验表明,HCPD持续优于当前最先进的基线方法,为零源幻觉检测提供了有效且可解释的解决方案。代码可在 https://github.com/TRISKEL10N/HCPD 获取。
查看缓存全文
缓存时间: 2026/06/12 08:54
# 零源 LLM 幻觉检测:类人准则探针方法
来源:https://arxiv.org/html/2606.12900
###### 摘要
大型语言模型(LLM)经常生成事实上不正确或不忠实的内容,即幻觉,这对其安全使用构成重大风险。在零源约束下——即无法访问模型内部状态或外部参考,检测必须仅依赖文本查询-答案对——检测此类幻觉尤为困难。本文提出面向零源幻觉检测的类人准则探针(HCPD),这是一种模拟人类评估者多维度推理的范式。其核心是类人准则探针(HCP)机制,其中 LLM 智能体自适应地将判断分解为一组可解释的加权重准则,并将各准则得分聚合为最终的真实性度量。为实现这种自适应能力,我们引入了一种基于奖励的对齐训练方案,仅使用来自语义一致性的弱监督。推理时,我们采用多样本聚合策略确保决策稳健,同时保持完全的可解释性。我们还提供了理论分析来支持我们方法的可靠性。大量实验表明,HCPD 持续优于最先进的基线方法,为零源幻觉检测提供了一种有效且可解释的解决方案。代码可在 https://github.com/TRISKEL10N/HCPD 获取。
机器学习,ICML
## 1 引言
大型语言模型(LLM)发展迅速,并越来越多地部署在广泛的应用中,包括信息检索(Zhu 等人,2025)、决策支持(Chiang 等人,2024;Chen 等人,2024b;Ma 等人,2025)以及医疗(Benary 等人,2023;Vrdoljak 等人,2025)、金融(Yu 等人,2024)和教育(Neumann 等人,2024)等领域的专业辅助。然而,它们的实际应用受到幻觉的限制,即 LLM 生成事实上不正确、无根据或不忠实于用户意图的响应,这在安全关键场景中带来重大风险。因此,可靠的幻觉检测对于基于 LLM 的助手的安全可信部署至关重要。
一个关键挑战是,实际中的幻觉检测通常需要在严格的零源约束下进行(Fang 等人,2025;Yang 等人,2025b)。在常见的开放世界场景中,审核过程与生成过程完全解耦。例如,第三方审核员(如社交媒体平台、新闻机构)必须评估大量用户上传的文本,而不知道底层的源 LLM。类似的情况也发生在大多数终端用户通过 Web 界面(如 ChatGPT¹、Gemini² 和 Claude³)或浏览器扩展与 LLM 交互时,此时纯文本是唯一可访问的输出。因此,商业 API、内部状态和辅助资源(如外部知识库)通常不可用。在这种现实限制下,稳健的检测必须仅依赖观察到的查询-答案对。
不幸的是,大多数现有方法在上述约束下并不直接适用。虽然基于检索增强或事实验证的方法(Semnani 等人,2023;Hu 等人,2024;Chen 等人,2024c)在传统的基于知识的幻觉检测中有效,但它们需要访问网络或知识资源,其可用性和可靠性难以保证。为了避免外部参考,基于置信度和基于度量的方法(Malinin 和 Gales,2021;Kuhn 等人,2023;Park 等人,2025)主要依赖模型内部状态,这对于黑盒或商业系统是不可获取的。自监督或基于一致性的方法(Kadavath 等人,2022;Manakul 等人,2023)通常使用静态的、任务无关的启发式规则,限制了它们在跨领域捕捉精确的、上下文相关的判断的能力。此外,大多数检测器仅提供二元标签或标量分数,可解释性和诊断性有限。
相比之下,人类专家很少使用单一标准来判断一个响应。他们反而将评估分解为多个维度,根据上下文自适应调整它们的相对权重,并提供基于证据的判断。这一观察启发了一种通用的零源检测范式,模拟人类风格的评估推理。在本文中,我们提出了面向零源幻觉检测的类人准则探针(HCPD)。其核心是类人准则探针(HCP)机制,它使预训练的 LLM 智能体能够通过透明的多步骤过程评估响应(第 4.3 节)。对于每个查询-答案对,智能体首先自适应地生成一组细粒度准则(例如,事实准确性、逻辑一致性)及其上下文感知的重要性权重,然后根据每个准则对文本打分,最后将这些分数聚合为整体真实性度量,有效模拟了人类专家细致入微的多视角推理。
为了实现这种自适应判断能力,我们引入了一种基于奖励的对齐训练方案,该方案利用来自语义一致性的弱监督来教会智能体如何分解和加权准则,而无需真实幻觉标签(第 4.4 节)。在推理时,我们采用多样本聚合策略来减少随机生成过程带来的方差,对每个实例执行 K 次独立的 HCP 评估并平均结果以获得稳健的最终决策(第 4.5 节)。我们进一步提供了训练和推理行为的统计特征,并通过界定排序错误概率导出了无阈值的性能特征(第 4.6 节)。大量实验表明,HCPD 优于现有最先进方法,验证了其在零源幻觉检测中的有效性。
我们的贡献总结如下:
- **一种用于零源检测的自适应多准则探针框架**:我们是首个在零源约束下明确形式化幻觉检测的工作,并提出了类人准则探针机制,将检测重新定义为上下文感知的准则生成、加权和聚合过程。通过使智能体自适应地将判断分解为可解释的维度,我们的方法模拟了人类评估者细致入微的多维度推理,超越了单一标量评分的范式。
- **无需真实标签的弱监督对齐训练**:为了在评分智能体中实现可靠的自适应判断,我们引入了一种基于奖励的对齐训练方案,仅使用来自语义一致性的弱监督。该方法有效教会智能体识别、加权和评分相关准则,而无需任何标注的幻觉数据,使其特别适用于实际的零源约束。
- **具有理论保证的稳定且可解释的推理策略**:我们在推理时设计了多样本聚合策略来减少生成方差,增强决策稳健性,同时通过生成的准则和权重保持完全的可解释性。此外,我们进行了理论分析,为基于探针方法的可行性和可靠性提供了正式见解。
## 2 预备知识
**组相对策略优化**。组相对策略优化(GRPO)是一种用于 LLM 稳定高效微调的强化学习算法。为消除策略梯度方法(Schulman 等人,2017)中通常需要的显式价值函数,GRPO 将同一提示下多个采样输出的平均奖励作为隐式基线。具体来说,对于每个输入 x,当前策略 f_θ 采样一组输出 {Y_1, ..., Y_G},并为每个输出分配基于评判者的标量奖励 r(Y_g)。GRPO 不是优化绝对奖励,而是在组内构造组相对优势 A_g = r(Y_g) - (1/G)∑_{j=1}^G r(Y_j),这将在组内规范化奖励并固有地减少梯度估计的方差。然后优化策略模型以增加具有高于平均奖励的输出的可能性,同时约束更新以保持接近参考策略 f_0(通常是初始版本),以保持生成质量。单个组的目标定义为:
J(θ) = (1/G) ∑_{g=1}^G [ (f_θ(Y_g|x) / f_0(Y_g|x)) A_g ] - β · D_KL( f_θ(·|x) || f_0(·|x) ), (1)
其中 β 是控制 Kullback-Leibler 散度(Csiszár, 1975)惩罚强度的超参数。为简单起见,当在理论边界中使用时,我们复用 J(θ) 表示在分布上聚合的目标。通过评估和比较同一提示的多个输出,GRPO 获得稳健的、上下文相关的学习信号,并与每个样本的绝对奖励优化相比实现更稳定的收敛。这一特性使其特别适合对齐我们的评分智能体,其中奖励密集但需要跨不同评估属性进行精确校准。
(图1:提出的 HCPD 概述。给定查询-答案对 (q,a),智能体实例化一组具体准则 {c_i}_{i=1}^m 和对应的重要性权重 {w_i}_{i=1}^m。随后生成准则级部分分数 {s_i}_{i=1}^m 并聚合成整体真实性度量 s_p。在 GRPO 训练中,我们通过最大化分数对齐奖励来微调智能体,该奖励鼓励预测的 s_p 与基于一致性相似度度量导出的弱监督标签匹配。推理时,我们调用智能体 K 次并聚合所得分数以获得可靠决策 s̄。)
## 3 相关工作
**幻觉检测**。尽管真实性是语言生成的基本要求,但大型语言模型(LLM)仍然经常产生事实上不正确或上下文不一致的输出,即所谓的幻觉。因此,幻觉检测(Lin 等人,2022;Azaria 和 Mitchell,2023;Kuhn 等人,2023;Ren 等人,2023;Manakul 等人,2023;Zhang 等人,2023;Lin 等人,2024;Chen 等人,2024a;Du 等人,2024;Park 等人,2025)已成为安全可靠部署的核心研究焦点。
一种主流研究范式将 LLM 幻觉归因于预测不确定性。基于概率的方法通过困惑度(Ren 等人,2023)、长度归一化熵(Malinin 和 Gales,2021)和语义熵(Kuhn 等人,2023)等指标量化这种不确定性。相比之下,基于一致性的方法通过相似度指标(如 BERTScore(Zhang 等人,2019)、ROUGE(Lin 等人,2024)、自然语言推理和基于提示的自一致性验证(Manakul 等人,2023)),或通过响应协方差矩阵的谱分析(如特征值分解(Chen 等人,2024a))来评估多个采样响应之间的一致性。基于语言化的方法通过提示模型以自然语言明确表达不确定性(Lin 等人,2022)或通过自我评估机制(Kadavath 等人,2022)来获取置信度信号。然而,这些不确定性驱动信号仍然有限,因为幻觉甚至经常发生在高置信度生成中。虽然多样本评估在一定程度上缓解了这一问题,但却带来了巨大的计算开销。
一个互补的视角利用模型内部状态来推断文本真实性。例如,CCS(Burns 等人,2022)从激活模式中提取潜在知识,SAPLMA(Azaria 和 Mitchell,2023)直接在隐藏表示上训练分类器,HaloScope(Du 等人,2024)通过奇异值分解识别与幻觉相关的子空间,TSV(Park 等人,2025)引入了可学习的引导向量以适应潜在特征实现更好的可分性。尽管这些方法有效,但它们需要访问模型内部表示,从而限制了它们在现实部署场景中的适用性,因为底层模型架构和训练数据来源通常不公开。
## 4 方法
### 4.1 问题定义
**LLM 幻觉**。在文本生成中,幻觉指的是要么与已有知识事实不一致,要么与给定来源或查询意图上下文不忠实的内容(Huang 等人,2025)。此类错误通常源于模型固有的不确定性、所学知识的局限性或推理失败。因此,描述和探针这些失效模式对于 LLM 的可靠部署至关重要。
**幻觉检测**相似文章
PARALLAX: 区分真实幻觉检测与基准构建伪影
本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。
幻觉检测引导的临床摘要偏好优化
介绍了HDSR和HDSR-PL方法,这些方法使用幻觉检测器来指导迭代自我改进和偏好学习,在MIMIC-IV-Note上使用Llama和Gemma模型进行临床摘要时,幻觉减少高达48%。
长文本幻觉检测的健全性检验
本文介绍了一种受控不变性方法以及两种测试(Force 和 Remove),旨在确定大语言模型(LLM)幻觉检测器是依赖于推理过程还是最终答案的特征。研究提出了 TRACT,这是一种基于词汇特征的轻量级评分器,证明了其在不依赖答案层面线索的情况下仍能保持鲁棒的性能。
幻觉检测中的自动层选择
本文提出了用于大语言模型幻觉检测的自动层选择方法,并引入了固有维度首个有效峰值(FEPoID),这是一种无需训练的标准,能够一致地识别出最优中间层,优于现有启发式方法。
OpenHalDet:一种针对多样生成场景下幻觉检测的统一基准
OpenHalDet 是一个用于大语言模型幻觉检测的统一基准,它标准化了跨不同生成场景的评估,并支持黑盒、灰盒和白盒检测方法。