标签
本文对大语言模型中基于探针的不确定性估计进行了分解研究,表明原始隐藏状态和注意力特征在域内表现良好,但结构化特征在分布偏移下更为鲁棒,并提供了预训练探针作为现成基线。
GAVEL 提出了一个新任务,用于验证、解释和定位图像-文本对中的错误,并附带一个数据集和基准。一个监督基线显示出相对于强闭源模型的改进。
MedBench v5 是一个面向临床多模态模型的动态、过程导向的基准测试,集成了幻觉检测和压力测试,超越静态问答,评估在信息流压力下的推理和稳定性。
提出HCPD,一种零源幻觉检测方法,采用类人标准探询机制将判断分解为可解释的标准,优于当前最先进的基线方法。
本文将对基于最优传输的幻觉检测扩展到NMT和抽象式摘要中的所有解码器层,发现检测主要集中在早期层,并且由于忠实性失败无法通过注意力集中检测到,几何信号在摘要任务中迁移效果不佳。
将词元级幻觉检测重新表述为最快变化检测问题,建立了检测延迟的理论下界,并表明因果循环模型实现了接近最优的性能,优于线性基线。
一篇被ICML 2026接收的论文提出了通过信息预算弃权门实现可预测幻觉的方法,并发布了ntkMirror——一种免训练的开源权重实现,通过在信息不足时弃权来减少幻觉,在约24%弃权率下实现0.0–0.7%的幻觉率。
OpenHalDet 是一个用于大语言模型幻觉检测的统一基准,它标准化了跨不同生成场景的评估,并支持黑盒、灰盒和白盒检测方法。
提出证据图一致性(EGC)框架,利用基于图的结构一致性进行RAG中的幻觉检测,揭示了不同模型家族间有效性的差异。
本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障,可以完全通过内部激活和稀疏自编码器来检测和缓解,无需微调即可大幅降低幻觉率。
本文介绍了CHARM框架,用于检测和缓解多步骤智能体RAG流水线中的级联幻觉问题——早期阶段产生的错误会在推理步骤中不断传播并放大。CHARM在多个基准测试中实现了89.4%的级联检测率和82.1%的错误传播降低率,且延迟开销较低。
KG-Guard是一个轻量级的基于图的框架,用于检测基于LLM的知识库问答中的幻觉。它将LLM视为黑盒,使用图编码器与MLP分类器来识别幻觉答案节点,在参数少得多的前提下优于基线方法。
FLaG 是一个轻量级的幻觉检测框架,适用于大语言模型,通过潜在证据组和基于能量的路由对正确性进行建模,在多个基准测试中实现了 SOTA 性能。
LLM-FACETS 是一个开源评估框架,旨在帮助从业者评估LLM的透明度与问责制,重点关注隐私和数据流透明度。它提供浏览器界面和插件架构,支持多种审计机制,包括令牌级对数概率可视化和 RAG Triad 指标。
介绍了HDSR和HDSR-PL方法,这些方法使用幻觉检测器来指导迭代自我改进和偏好学习,在MIMIC-IV-Note上使用Llama和Gemma模型进行临床摘要时,幻觉减少高达48%。
本文提出了一种针对高风险领域LLM输出的神经符号验证架构,结合形式化符号方法与神经语义分析。在一个医疗器械损伤评估系统上进行的评估显示,该架构对结构化实体的幻觉检测率超过83%,语义虚构的检测率达72%,报告创建时间缩短30%。
本文提出了用于大语言模型幻觉检测的自动层选择方法,并引入了固有维度首个有效峰值(FEPoID),这是一种无需训练的标准,能够一致地识别出最优中间层,优于现有启发式方法。
本文介绍了将图对齐拓扑作为接地检测的归纳偏置,使用图神经网络对参考信息与LLM输出之间的对齐结构进行建模。该方法在多个幻觉和问答数据集上取得了最先进的结果,性能优于GPT-4o。
本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。
本文首次系统研究了大型语言扩散模型(LLDMs)的不确定性量化(UQ),提出了从迭代去噪过程中衍生的轻量级零样本不确定性信号,并表明LLDMs能够在实现快速推理的同时,提供可靠的幻觉检测,与基于采样的基线方法相比,计算开销降低高达100倍。