首个Token已知：用于幻觉检测的单次解码置信度

Hugging Face Daily Papers 2026/05/06 00:00 论文

摘要

本文介绍了一种利用大语言模型生成首Token的置信度来检测幻觉的方法，该方法仅需执行单次解码步骤。

自洽性（Self-consistency）通过为问题生成多个采样答案并测量其一致性来检测幻觉，但这需要重复解码，且对词汇变化较为敏感。语义自洽性通过利用自然语言推理按语义对采样答案进行聚类，从而改进了这一方法，但这增加了采样成本并引入了外部推理开销。我们证明，phi_first（首个Token置信度）是基于单次贪心解码中首个承载内容的回答Token的Top-K logit的归一化熵计算得出的，它在闭卷短答案事实性问答任务上的表现与语义自洽性相当或略优。在三种7-8B指令微调模型和两个基准测试中，phi_first的平均AUROC为0.820，而语义一致性为0.793，标准表层形式自洽性为0.791。蕴含检验显示，phi_first与语义一致性之间存在中度到高度的相关性，且将这两种信号结合仅比单独使用phi_first带来微小的AUROC提升。这些结果表明，多样本一致性所捕捉的不确定性信息的大部分已存在于模型的初始Token分布中。我们认为，在调用基于采样的不确定性估计之前，应将phi_first作为默认的基线指标进行报告。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:56

论文页面 - The First Token Knows: Single-Decode Confidence for Hallucination Detection

来源：https://huggingface.co/papers/2605.05166 在你的智能体中获取这篇论文：

hf papers read 2605\.05166

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.05166 即可在此页面建立链接。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.05166 即可在此页面建立链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.05166 即可在此页面建立链接。

包含此论文的合集 0

没有包含此论文的合集

添加此论文到合集（https://huggingface.co/new-collection）即可在此页面建立链接。

首个Token已知：用于幻觉检测的单次解码置信度

论文页面 - The First Token Knows: Single-Decode Confidence for Hallucination Detection

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

基于开权重代理分析器激活的幻觉检测

从架构到输出：大型语言模型中幻觉的结构根源及数据的放大作用

基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解

关注未见质量：通过软混合字母估计揭示 LLM 幻觉

提交意见反馈