首个Token已知:用于幻觉检测的单次解码置信度
摘要
本文介绍了一种利用大语言模型生成首Token的置信度来检测幻觉的方法,该方法仅需执行单次解码步骤。
查看缓存全文
缓存时间: 2026/05/08 07:56
论文页面 - The First Token Knows: Single-Decode Confidence for Hallucination Detection
来源:https://huggingface.co/papers/2605.05166 在你的智能体中获取这篇论文:
hf papers read 2605\.05166
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2605.05166 即可在此页面建立链接。
引用此论文的数据集 0
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.05166 即可在此页面建立链接。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2605.05166 即可在此页面建立链接。
包含此论文的合集 0
没有包含此论文的合集
添加此论文到合集(https://huggingface.co/new-collection)即可在此页面建立链接。
相似文章
HalluSAE:利用稀疏自编码器检测大型语言模型中的幻觉
北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。
基于开权重代理分析器激活的幻觉检测
本文介绍了一种代理分析器框架,通过分析小型开权重模型的内部激活状态而非生成模型本身,来检测大型语言模型中的幻觉。与 ReDeEP 等现有方法相比,该方法在 RAGTruth 等基准测试中表现出更优越的性能,证明了分析方法的优劣比模型大小更为关键。
从架构到输出:大型语言模型中幻觉的结构根源及数据的放大作用
本文分析了大型语言模型中的幻觉,将其视为三个架构决策的结构性后果:自注意力的共现学习、最大似然估计训练目标以及自回归解码的左到右承诺。它将每种机制映射到特定的幻觉类型,并论证了数据集病态会放大但不会导致这些脆弱性。
基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解
本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障,可以完全通过内部激活和稀疏自编码器来检测和缓解,无需微调即可大幅降低幻觉率。
关注未见质量:通过软混合字母估计揭示 LLM 幻觉
研究者提出 SHADE,一种混合估计器,在仅能获取少量黑盒样本时,融合 Good-Turing 覆盖率与图谱线索,量化语义不确定性并检测大模型幻觉。