首个Token已知:用于幻觉检测的单次解码置信度

Hugging Face Daily Papers 论文

摘要

本文介绍了一种利用大语言模型生成首Token的置信度来检测幻觉的方法,该方法仅需执行单次解码步骤。

自洽性(Self-consistency)通过为问题生成多个采样答案并测量其一致性来检测幻觉,但这需要重复解码,且对词汇变化较为敏感。语义自洽性通过利用自然语言推理按语义对采样答案进行聚类,从而改进了这一方法,但这增加了采样成本并引入了外部推理开销。我们证明,phi_first(首个Token置信度)是基于单次贪心解码中首个承载内容的回答Token的Top-K logit的归一化熵计算得出的,它在闭卷短答案事实性问答任务上的表现与语义自洽性相当或略优。在三种7-8B指令微调模型和两个基准测试中,phi_first的平均AUROC为0.820,而语义一致性为0.793,标准表层形式自洽性为0.791。蕴含检验显示,phi_first与语义一致性之间存在中度到高度的相关性,且将这两种信号结合仅比单独使用phi_first带来微小的AUROC提升。这些结果表明,多样本一致性所捕捉的不确定性信息的大部分已存在于模型的初始Token分布中。我们认为,在调用基于采样的不确定性估计之前,应将phi_first作为默认的基线指标进行报告。
查看原文
查看缓存全文

缓存时间: 2026/05/08 07:56

论文页面 - The First Token Knows: Single-Decode Confidence for Hallucination Detection

来源:https://huggingface.co/papers/2605.05166 在你的智能体中获取这篇论文:

hf papers read 2605\.05166

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.05166 即可在此页面建立链接。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.05166 即可在此页面建立链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2605.05166 即可在此页面建立链接。

包含此论文的合集 0

没有包含此论文的合集

添加此论文到合集(https://huggingface.co/new-collection)即可在此页面建立链接。

相似文章

HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉

arXiv cs.CL

北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。

基于开权重代理分析器激活的幻觉检测

arXiv cs.CL

本文介绍了一种代理分析器框架,通过分析小型开权重模型的内部激活状态而非生成模型本身,来检测大型语言模型中的幻觉。与 ReDeEP 等现有方法相比,该方法在 RAGTruth 等基准测试中表现出更优越的性能,证明了分析方法的优劣比模型大小更为关键。