hallucination-detection

#hallucination-detection

从信号到迁移：基于探针的大语言模型不确定性估计的分解研究

arXiv cs.CL ↗ · 14小时前缓存

本文对大语言模型中基于探针的不确定性估计进行了分解研究，表明原始隐藏状态和注意力特征在域内表现良好，但结构化特征在分布偏移下更为鲁棒，并提供了预训练探针作为现成基线。

0 人收藏 0 人点赞

#hallucination-detection

GAVEL：有依据的描述错误验证与定位

arXiv cs.CL ↗ · 3天前缓存

GAVEL 提出了一个新任务，用于验证、解释和定位图像-文本对中的错误，并附带一个数据集和基准。一个监督基线显示出相对于强闭源模型的改进。

0 人收藏 0 人点赞

#hallucination-detection

MedBench v5：面向临床多模态模型的动态、过程导向且具有幻觉感知能力的基准测试

arXiv cs.CL ↗ · 5天前缓存

MedBench v5 是一个面向临床多模态模型的动态、过程导向的基准测试，集成了幻觉检测和压力测试，超越静态问答，评估在信息流压力下的推理和稳定性。

0 人收藏 0 人点赞

#hallucination-detection

零源大语言模型幻觉检测：基于类人标准探询方法

arXiv cs.AI ↗ · 2026-06-12 缓存

提出HCPD，一种零源幻觉检测方法，采用类人标准探询机制将判断分解为可解释的标准，优于当前最先进的基线方法。

0 人收藏 0 人点赞

#hallucination-detection

面向NMT与抽象式摘要中幻觉检测的逐层最优传输

arXiv cs.CL ↗ · 2026-06-12 缓存

本文将对基于最优传输的幻觉检测扩展到NMT和抽象式摘要中的所有解码器层，发现检测主要集中在早期层，并且由于忠实性失败无法通过注意力集中检测到，几何信号在摘要任务中迁移效果不佳。

0 人收藏 0 人点赞

#hallucination-detection

幻觉起始的最快检测：延迟界与学习型CUSUM统计量

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

将词元级幻觉检测重新表述为最快变化检测问题，建立了检测延迟的理论下界，并表明因果循环模型实现了接近最优的性能，优于线性基线。

0 人收藏 0 人点赞

#hallucination-detection

我们的ICML论文：可预测幻觉（信息预算弃权门）及今日发布的免训练开源权重实现ntkMirror

Reddit r/LocalLLaMA ↗ · 2026-06-09

一篇被ICML 2026接收的论文提出了通过信息预算弃权门实现可预测幻觉的方法，并发布了ntkMirror——一种免训练的开源权重实现，通过在信息不足时弃权来减少幻觉，在约24%弃权率下实现0.0–0.7%的幻觉率。

0 人收藏 0 人点赞

#hallucination-detection

OpenHalDet：一种针对多样生成场景下幻觉检测的统一基准

arXiv cs.CL ↗ · 2026-06-08 缓存

OpenHalDet 是一个用于大语言模型幻觉检测的统一基准，它标准化了跨不同生成场景的评估，并支持黑盒、灰盒和白盒检测方法。

0 人收藏 0 人点赞

#hallucination-detection

检索增强生成中的证据图一致性：一种模型依赖的幻觉检测分析

arXiv cs.CL ↗ · 2026-06-08 缓存

提出证据图一致性（EGC）框架，利用基于图的结构一致性进行RAG中的幻觉检测，揭示了不同模型家族间有效性的差异。

0 人收藏 0 人点赞

#hallucination-detection

基于隐层表示引导和稀疏自编码器的Whisper幻觉检测与缓解

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

本文展示了Whisper在面对静音、噪声或音乐时产生的幻觉故障，可以完全通过内部激活和稀疏自编码器来检测和缓解，无需微调即可大幅降低幻觉率。

0 人收藏 0 人点赞

#hallucination-detection

智能体RAG中的级联幻觉：CHARM检测与缓解框架

arXiv cs.AI ↗ · 2026-06-04 缓存

本文介绍了CHARM框架，用于检测和缓解多步骤智能体RAG流水线中的级联幻觉问题——早期阶段产生的错误会在推理步骤中不断传播并放大。CHARM在多个基准测试中实现了89.4%的级联检测率和82.1%的错误传播降低率，且延迟开销较低。

0 人收藏 0 人点赞

#hallucination-detection

KG-Guard: 基于图的幻觉检测方法用于知识库问答

arXiv cs.LG ↗ · 2026-06-02 缓存

KG-Guard是一个轻量级的基于图的框架，用于检测基于LLM的知识库问答中的幻觉。它将LLM视为黑盒，使用图编码器与MLP分类器来识别幻觉答案节点，在参数少得多的前提下优于基线方法。

0 人收藏 0 人点赞

#hallucination-detection

FLaG：细粒度潜在分组用于幻觉检测

arXiv cs.LG ↗ · 2026-06-02 缓存

FLaG 是一个轻量级的幻觉检测框架，适用于大语言模型，通过潜在证据组和基于能量的路由对正确性进行建模，在多个基准测试中实现了 SOTA 性能。

0 人收藏 0 人点赞

#hallucination-detection

LLM-FACETS：一种用于评估LLM透明度与问责制的隐私保护框架

arXiv cs.AI ↗ · 2026-06-01 缓存

LLM-FACETS 是一个开源评估框架，旨在帮助从业者评估LLM的透明度与问责制，重点关注隐私和数据流透明度。它提供浏览器界面和插件架构，支持多种审计机制，包括令牌级对数概率可视化和 RAG Triad 指标。

0 人收藏 0 人点赞

#hallucination-detection

幻觉检测引导的临床摘要偏好优化

arXiv cs.CL ↗ · 2026-05-29 缓存

介绍了HDSR和HDSR-PL方法，这些方法使用幻觉检测器来指导迭代自我改进和偏好学习，在MIMIC-IV-Note上使用Llama和Gemma模型进行临床摘要时，幻觉减少高达48%。

0 人收藏 0 人点赞

#hallucination-detection

面向数据敏感领域的LLM输出的神经符号验证（扩展预印本）

arXiv cs.AI ↗ · 2026-05-27 缓存

本文提出了一种针对高风险领域LLM输出的神经符号验证架构，结合形式化符号方法与神经语义分析。在一个医疗器械损伤评估系统上进行的评估显示，该架构对结构化实体的幻觉检测率超过83%，语义虚构的检测率达72%，报告创建时间缩短30%。

0 人收藏 0 人点赞

#hallucination-detection

幻觉检测中的自动层选择

arXiv cs.AI ↗ · 2026-05-27 缓存

本文提出了用于大语言模型幻觉检测的自动层选择方法，并引入了固有维度首个有效峰值（FEPoID），这是一种无需训练的标准，能够一致地识别出最优中间层，优于现有启发式方法。

0 人收藏 0 人点赞

#hallucination-detection

图对齐拓扑作为接地检测的归纳偏置

arXiv cs.CL ↗ · 2026-05-25 缓存

本文介绍了将图对齐拓扑作为接地检测的归纳偏置，使用图神经网络对参考信息与LLM输出之间的对齐结构进行建模。该方法在多个幻觉和问答数据集上取得了最先进的结果，性能优于GPT-4o。

0 人收藏 0 人点赞

#hallucination-detection

PARALLAX: 区分真实幻觉检测与基准构建伪影

arXiv cs.CL ↗ · 2026-05-19 缓存

本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影，其中真实答案被嵌入到提示中，使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估，作者证明，在适当控制下，大多数方法的表现接近随机水平，除了对上层隐藏状态的监督探针（如SAPLMA）以及他们提出的DRIFT。

0 人收藏 0 人点赞

#hallucination-detection

大型语言扩散模型的不确定性量化

arXiv cs.CL ↗ · 2026-05-15 缓存

本文首次系统研究了大型语言扩散模型（LLDMs）的不确定性量化（UQ），提出了从迭代去噪过程中衍生的轻量级零样本不确定性信号，并表明LLDMs能够在实现快速推理的同时，提供可靠的幻觉检测，与基于采样的基线方法相比，计算开销降低高达100倍。

0 人收藏 0 人点赞

hallucination-detection

提交意见反馈