从信号到迁移：基于探针的大语言模型不确定性估计的分解研究

arXiv cs.CL 2026/06/29 04:00 论文

摘要

本文对大语言模型中基于探针的不确定性估计进行了分解研究，表明原始隐藏状态和注意力特征在域内表现良好，但结构化特征在分布偏移下更为鲁棒，并提供了预训练探针作为现成基线。

arXiv:2606.27679v1 公告类型：新摘要：基于探针的不确定性估计（UE）已成为一种主流方法，通过学习大语言模型（LLM）内部信号中的不确定性来检测幻觉。然而，近期方法在特征设计、训练数据构建和评估设置上同时变化，模糊了实际驱动性能的因素。为解决这一问题，我们提出了在匹配条件下对基于探针的UE进行分解研究。我们的结果表明，原始隐藏状态和注意力特征在域内难以被超越。但在分布偏移下，结构化和压缩特征更为鲁棒，这表明仅凭域内性能不足以衡量进展。此外，提示和标签构建显著影响探针行为。基于这些最佳实践发现，我们训练了基于基准的预训练探针，这些探针能够较好地迁移到开放式事实生成任务，提供了稳定的现成基线。我们的工作鼓励对基于探针的不确定性估计进行更多面向部署的评估。代码仓库见 https://github.com/ponhvoan/ProbeUE。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:23

# 从信号到迁移：大型语言模型中基于探针的不确定性估计的因子化研究
来源: https://arxiv.org/html/2606.27679
Ponhvoan Srey¹  Wu Xiaobao²  Cong-Duy Nguyen³  Quang Minh Nguyen⁴  Duc Anh Vu¹  Anh Tuan Luu¹,³††Corresponding Authors.  
¹南洋理工大学 ²上海交通大学 ³VinUniversity ⁴韩国科学技术院  
{ponhvoan002, vuducanh001, anhtuan.luu}@ntu.edu.sg  [email protected]  [email protected]  [email protected]  

###### 摘要

基于探针的不确定性估计（UE）通过学习大型语言模型（LLM）内部信号中的不确定性，已成为检测幻觉的主流方法。然而，近期方法在特征设计、训练数据构建和评估设置上同时变化，模糊了真正驱动性能的因素。为解决这一问题，我们提出了在匹配条件下对基于探针的UE进行因子化研究。结果表明，原始隐藏状态和注意力特征在域内很难被超越。但在分布偏移下，结构化和压缩特征更为鲁棒，这表明仅凭域内性能不足以衡量进展。此外，提示和标签构建显著影响探针行为。基于这些最佳实践发现，我们训练了基于基准的预训练探针，这些探针能较好地迁移到开放式事实生成，提供了稳定的现成基线。我们的工作鼓励对基于探针的不确定性估计器进行更多面向部署的评估。代码仓库位于 https://github.com/ponhvoan/ProbeUE。

从信号到迁移：大型语言模型中基于探针的不确定性估计的因子化研究

Ponhvoan Srey¹  Wu Xiaobao²††Corresponding Authors.  Cong-Duy Nguyen³  Quang Minh Nguyen⁴  Duc Anh Vu¹  Anh Tuan Luu¹,³†  
¹南洋理工大学 ²上海交通大学 ³VinUniversity ⁴韩国科学技术院  
{ponhvoan002, vuducanh001, anhtuan.luu}@ntu.edu.sg  [email protected]  [email protected]  [email protected]  

## 1 引言

大型语言模型（LLM）中的幻觉，即倾向于生成虚构信息，仍然是实际应用可靠部署的持续障碍（Sahoo et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib9); Huang et al., 2025a (https://arxiv.org/html/2606.27679#bib.bib10); Zhang et al., 2025b (https://arxiv.org/html/2606.27679#bib.bib12)）。这要求开发鲁棒的不确定性估计（UE）来准确标记潜在的错误生成内容给用户（Vashurin et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib13)）。近期工作表明，利用内部模型状态的基于探针的UE为幻觉检测提供了最有效的信号之一（Mahaut et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib23); Tan et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib20)）。这导致了越来越多的工作致力于设计逐渐结构化和信息丰富的内部特征，并将其集成到更复杂的优化协议中（Chuang et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib18); He et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib17); Vazhentsev et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib14); Shelmanov et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib15)）。然而，尽管取得了这些进展，两个问题仍未解决：所报告的收益归因于什么，以及这些收益是否能超越匹配的基准设置。首先，当前评估混淆了多种设计选择，如训练数据获取、特征表示、监督和探针架构，使得不清楚实际导致观察到的收益的因素。这激发了我们的第一个核心研究问题：*真正驱动基于探针不确定性估计性能的因素是什么？*

同时，基于探针的UE的一个关键瓶颈是有限的泛化能力。尽管探针在匹配的训练-测试条件下非常有效，但当应用于新领域或生成设置时，其性能通常会下降（CH-Wang et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib19); Chuang et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib18)）。这限制了它们在真实用例中的实用性，因为在这些用例中，不确定性估计器必须处理开放式生成，而不仅仅是它们训练的基准格式。虽然一些先前的工作评估了跨数据集的迁移，但此类评估仅限于基准到基准的迁移（Chuang et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib18)），或停留在可比较的长篇和声明级生成设置中（Han et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib29); Shelmanov et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib15)）。在这些设置中，探针在分布偏移下进行测试，但生成格式、答案结构、监督信号和评估协议仍然相对受限。这留下了探针能否泛化到较不标准化的部署设置的问题，在这些设置中，输出是开放的，长度和风格变化很大，并且包含更多样化的事实错误。这构成了我们的第二个研究问题：*在受控基准设置下训练的探针能否泛化到开放式生成任务？*

为了回答这些问题，我们对基于探针的UE进行了控制研究，涵盖三个主要维度：特征表示、训练数据构建和迁移设置。我们的研究涵盖了近年来提出的广泛特征表示，包括潜在嵌入、输出概率、注意力模式及其组合（Azaria and Mitchell, 2023 (https://arxiv.org/html/2606.27679#bib.bib1); Chuang et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib18); He et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib17); Huang et al., 2025b (https://arxiv.org/html/2606.27679#bib.bib46); Shelmanov et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib15)），并使用不同的探针架构、监督大小、提示策略和自动正确性标签进行评估。我们进一步研究了基准到基准的迁移以及一种面向部署的设置，其中在基准数据上预训练的探针被应用于开放式长篇事实生成。这些共同使我们能够识别哪些设计选择驱动域内性能，哪些在偏移下保持鲁棒，以及哪些最佳实践支持可重用的预训练事实性探针。我们的发现挑战了几个常见假设。首先，即使在有限监督下，基于原始隐藏状态和注意力特征的简单线性探针也令人惊讶地难以被超越。其次，数据构建选择强烈塑造探针行为：基于推理的提示和基于词汇匹配的标签会显著降低性能。最后，结构化和压缩特征在分布偏移下提供更好的权衡。这些发现产生了一个实用配方：使用简单探针架构、带有语义正确性标签的简洁生成、以及迁移鲁棒的特征表示。基于这些最佳实践，我们展示了基准预训练探针可迁移到开放式事实生成，在没有目标任务训练数据的情况下接近任务特定的监督探针。

总体而言，我们的工作将基于探针的UE从域内基准比较推向面向部署的实践。该领域不应孤立地追求日益复杂的内部状态表示特征，而应优先考虑简单且可迁移的探针配置，以在基准之外保持可靠性。总之，我们的贡献有三点：

- • 我们提出了一个因子化评估框架，以解开基于探针UE性能背后的设计因素。
- • 我们介绍了在不同约束下训练轻量级不确定性/事实性探针的实用最佳实践。
- • 我们展示了这些最佳实践如何支持用于开放式生成的预训练探针的部署，为未来工作提供稳定的基线。

参见说明 (a) 平均AUROC
参见说明 (b) 平均ECE

图1: 主要结果：所有基准数据集上的平均域内性能。
## 2 相关工作

#### 基于探针的不确定性估计（UE）

训练轻量级探针在LLM内部信号之上，以预测事实性或正确性，或反之，幻觉风险。这种范式很吸引人，因为它通常只需要单次LLM前向传播，不同于昂贵的基于采样的方法，并且常常在域内实现强性能。早期工作表明，可以使用简单的分类器从隐藏激活（通常来自最后一层和最后一个token）中提取与事实相关的信息（Azaria and Mitchell, 2023 (https://arxiv.org/html/2606.27679#bib.bib1); Burns et al., 2022 (https://arxiv.org/html/2606.27679#bib.bib8); Marks and Tegmark, 2023 (https://arxiv.org/html/2606.27679#bib.bib7)）。后续方法通过多种方式扩展了这一范式，推导出更具信息量的隐藏状态表示。一些工作引导提示或生成过程以引出响应，从而引出更具区分性的内部状态用于事实验证（Zhang et al., 2025a (https://arxiv.org/html/2606.27679#bib.bib6); Srey et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib11)）。其他方法让探针暴露于更多信息，例如通过对所有层的隐藏状态进行池化（CH-Wang et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib19)），或将所有生成token的隐藏状态建模为序列输入（Shelmanov et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib15); Srey et al., 2026b (https://arxiv.org/html/2606.27679#bib.bib3); Zhu et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib2)），或集成跨模型隐藏状态（Tan et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib20)）。另一种方法将隐藏状态转换为旨在捕获不确定性和幻觉相关几何形状的结构化特征，例如跨层的密度基特征（Vazhentsev et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib14)），或跨层动态（Srey et al., 2026b (https://arxiv.org/html/2606.27679#bib.bib3)）。

并行的工作探索了超出隐藏状态之外的内部信号。例如，基于注意力的方法使用了诸如回溯比率之类的模式（Chuang et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib18)），即相对于生成token，对源上下文所给予的相对注意力。相关工作也整合了概率空间的信息，如token概率（Vazhentsev et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib14)）、熵（Srey et al., 2026b (https://arxiv.org/html/2606.27679#bib.bib3)）或logit派生特征，如top-k输出索引（He et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib17)）。这些近期混合方法通过直接连接（Shelmanov et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib15); Srey et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib11); Vazhentsev et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib14)）或通过专门的子模块（He et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib17)），结合了隐藏状态、注意力图和概率基信号。相关校准方法学习从启发式UE分数到与正确性对齐的估计的后验映射，使用模型特定校正器（Li et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib4)），进一步扩展了内部状态探针。

总体而言，基于探针的UE越来越被理解为对更丰富特征、更好校准信号和更高容量优化管线的搜索。然而，这些方法常常在许多设计因素上同时变化，使得不清楚哪些选择实际导致了观察到的收益。我们的工作阐明了何时此类工程是必要的，何时简单的隐藏状态探针就足够，以及哪些设计选择在迁移下保持鲁棒。

#### 工具包、基准与评估。

近期工作强调LLM不确定性估计的标准化评估。LM-Polygraph (Fadeeva et al., 2023) (https://arxiv.org/html/2606.27679#bib.bib16) 提供了一个用于比较UE方法的统一工具包，后续工作在一致协议下对其进行基准测试（Vashurin et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib13)）。类似地，UQLM (Bouchard et al., 2026 (https://arxiv.org/html/2606.27679#bib.bib21)) 提供了一个现成的包，用于使用黑盒、白盒、LLM-as-a-judge和集成评分器进行响应级幻觉检测。其他评估工作研究了各个方面，例如，通过研究长篇事实性（Han et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib29)）和具有token级注释的实时实体级幻觉检测（Obeso et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib52)），将不确定性纳入LLM基准测试（Ye et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib22)），分析对语义等价输入的鲁棒性（Mahaut et al., 2024 (https://arxiv.org/html/2606.27679#bib.bib23)），比较域内和域外设置（Wang et al., 2025a (https://arxiv.org/html/2606.27679#bib.bib24)），以及重新审视幻觉检测中的评估选择（Janiak et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib25)）。此外，置信度估计对推理和提示敏感：推理模型在某些设置中可能更准确地表达其口头化置信度（Yoon et al., 2026 (https://arxiv.org/html/2606.27679#bib.bib26)），但并不一致（Mei et al., 2026 (https://arxiv.org/html/2606.27679#bib.bib28)），并且推理可能膨胀基于概率的置信度（Fu et al., 2025 (https://arxiv.org/html/2606.27679#bib.bib27)）。这些努力总体上改进了UE的评估实践，但留下了受监督的内部状态探针的探索空间相对不足，这激发了我们关于探针性能和迁移的因子化研究。

## 3 什么驱动探针性能？

在本节中，我们回答第一个研究问题：*真正驱动基于探针不确定性估计性能的因素是什么？* 为此，我们通过变化重要的设计选择同时保持其他条件固定来进行因子化分析，即特征表示、数据和监督构建、以及迁移设置。我们发现原始隐藏状态和注意力特征在域内很强（第3.2节 (https://arxiv.org/html/2606.27679#S3.SS2)），响应引出和真实标注策略的选择可以显著影响探针质量（第3.3节 (https://arxiv.org/html/2606.27679#S3.SS3)），以及更具结构化的特征在迁移下更鲁棒（第3.4节 (https://arxiv.org/html/2606.27679#S3.SS4)）。我们澄清第3.4节 (https://arxiv.org/html/2606.27679#S3.SS4) 表示基准到基准的迁移分析，其中训练和测试数据不同，但二者都来自基准池（第3.1节 (https://arxiv.org/html/2606.27679#S3.SS1)）。在第4节 (https://arxiv.org/html/2606.27679#S4) 中，我们模拟了一个更开放的生成设置，并评估仅在基准数据集上预训练的探针。

### 3.1 实验设置

#### 数据集。

我们在涵盖三个任务的七个数据集上进行评估：（i）问答（QA）：使用 TriviaQA (Joshi et al., 2017 (https://arxiv.org/html/2606.27679#bib.bib31))、SciQ (Welble et al., 2017 (https://arxiv.org/html/2606.27679#bib.bib32)) 和 PopQA (Mallen et al., 2023 (

从信号到迁移：基于探针的大语言模型不确定性估计的分解研究

相似文章

大语言模型不确定性中的人类对齐、校准与激活模式

从语言模型轨迹中读取校准后的不确定性

大型语言模型黑盒不确定性估计方法的系统性评估

大型语言扩散模型的不确定性量化

线性探针在语言模型隐藏状态中检测的是任务格式，而非推理模式

提交意见反馈