hallucination-detection

#hallucination-detection

基于开权重代理分析器激活的幻觉检测

arXiv cs.CL ↗ · 3小时前缓存

本文介绍了一种代理分析器框架，通过分析小型开权重模型的内部激活状态而非生成模型本身，来检测大型语言模型中的幻觉。与 ReDeEP 等现有方法相比，该方法在 RAGTruth 等基准测试中表现出更优越的性能，证明了分析方法的优劣比模型大小更为关键。

0 人收藏 0 人点赞

#hallucination-detection

将幻觉视为异常：通过概率电路进行动态干预

arXiv cs.CL ↗ · 3天前缓存

本文提出了 PCNet，这是一种在大型语言模型（LLM）残差流上训练为可计算密度估计器的概率电路，用于将幻觉检测为几何异常。同时，本文还引入了 PC-LDCD，一种仅在生成幻觉 token 时才进行干预的动态修正方法，实现了近乎完美的检测率并降低了错误修正率。

0 人收藏 0 人点赞

#hallucination-detection

首个Token已知：用于幻觉检测的单次解码置信度

Hugging Face Daily Papers ↗ · 5天前缓存

本文介绍了一种利用大语言模型生成首Token的置信度来检测幻觉的方法，该方法仅需执行单次解码步骤。

0 人收藏 0 人点赞

#hallucination-detection

关注未见质量：通过软混合字母估计揭示 LLM 幻觉

arXiv cs.CL ↗ · 2026-04-22 缓存

研究者提出 SHADE，一种混合估计器，在仅能获取少量黑盒样本时，融合 Good-Turing 覆盖率与图谱线索，量化语义不确定性并检测大模型幻觉。

0 人收藏 0 人点赞

#hallucination-detection

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

arXiv cs.CL ↗ · 2026-04-21 缓存

北京航空航天大学等机构的研究人员提出了HalluSAE，这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹，来检测大型语言模型（LLM）中的幻觉，并精准定位发生事实性错误的关键过渡区域。

0 人收藏 0 人点赞

#hallucination-detection

TPA: 用于检测RAG中幻觉的下一个令牌概率归因

arXiv cs.CL ↗ · 2026-04-20 缓存

TPA提出了一种新颖的方法，通过将下一个令牌概率归因于七个不同的源头（查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm、初始嵌入），并按词性标签聚合，来检测RAG系统中的幻觉。该方法在包括Llama2、Llama3、Mistral和Qwen在内的五个大语言模型上实现了最先进的性能。

0 人收藏 0 人点赞

#hallucination-detection

面向检索增强生成输出的忠实性感知不确定性量化

arXiv cs.CL ↗ · 2026-04-20 缓存

本论文介绍了FRANQ方法，用于检测检索增强生成(RAG)系统中的幻觉问题。该方法应用不同的不确定性量化技术来区分事实性和对检索上下文的忠实性。作者构建了一个同时标注事实性和忠实性的新数据集，并证明FRANQ在多个数据集和大语言模型上的事实错误检测性能优于现有方法。

0 人收藏 0 人点赞

#hallucination-detection

RAGognizer：通过检测头集成实现幻觉感知微调

arXiv cs.CL ↗ · 2026-04-20 缓存

RAGognizer 提出了一种幻觉感知微调方法，该方法将轻量级检测头集成到大语言模型（LLMs）中，以实现语言建模与幻觉检测的联合优化，适用于 RAG 系统。论文介绍了 RAGognize，一个包含自然发生的闭域幻觉及其词元级标注的数据集，并展示了在降低幻觉率的同时，实现了最先进的幻觉检测性能，且不损害语言质量。

0 人收藏 0 人点赞

#hallucination-detection

从大型语言模型的序列内部离散中学习不确定性

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了SIVR（序列内部方差表示），一个有监督框架，通过分析隐层状态中的逐token和逐层方差模式来检测LLM中的幻觉现象，无需依赖严格的架构假设。该方法聚合完整序列方差特征来学习事实错误的时间模式，并在较小训练集上表现出更好的泛化能力。

0 人收藏 0 人点赞

#hallucination-detection

推出 SimpleQA

OpenAI Blog ↗ · 2024-10-30 缓存

OpenAI 推出 SimpleQA，一个新的事实性基准数据集，包含 4,326 个简短事实性问题，旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量，估计错误率仅为 ~3%，GPT-4o 得分不到 40%。

0 人收藏 0 人点赞

hallucination-detection

提交意见反馈