标签
Academic Research Skills 是首个可安装的 Claude Code 工作流,它封装了一个多智能体管线,用于检测和防止学术论文中的幻觉引用,解决了2025年预印本中统计到的146,932个幻觉引用问题。
本文分析了大语言模型中的幻觉检测问题,提出了一种最大池化方法,该方法通过消除昂贵的语义一致性计算来提高效率,同时保持具有竞争力的性能。
本文介绍了 CiteTracer,这是一个用于检测大语言模型(LLM)生成的科学写作中引用幻觉的多智能体框架,在合成和真实世界基准上均实现了高精度。
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
本文介绍了一种受控不变性方法以及两种测试(Force 和 Remove),旨在确定大语言模型(LLM)幻觉检测器是依赖于推理过程还是最终答案的特征。研究提出了 TRACT,这是一种基于词汇特征的轻量级评分器,证明了其在不依赖答案层面线索的情况下仍能保持鲁棒的性能。
本文介绍了一种代理分析器框架,通过分析小型开权重模型的内部激活状态而非生成模型本身,来检测大型语言模型中的幻觉。与 ReDeEP 等现有方法相比,该方法在 RAGTruth 等基准测试中表现出更优越的性能,证明了分析方法的优劣比模型大小更为关键。
本文提出了 PCNet,这是一种在大型语言模型(LLM)残差流上训练为可计算密度估计器的概率电路,用于将幻觉检测为几何异常。同时,本文还引入了 PC-LDCD,一种仅在生成幻觉 token 时才进行干预的动态修正方法,实现了近乎完美的检测率并降低了错误修正率。
本文介绍了一种利用大语言模型生成首Token的置信度来检测幻觉的方法,该方法仅需执行单次解码步骤。
研究者提出 SHADE,一种混合估计器,在仅能获取少量黑盒样本时,融合 Good-Turing 覆盖率与图谱线索,量化语义不确定性并检测大模型幻觉。
北京航空航天大学等机构的研究人员提出了HalluSAE,这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹,来检测大型语言模型(LLM)中的幻觉,并精准定位发生事实性错误的关键过渡区域。
TPA提出了一种新颖的方法,通过将下一个令牌概率归因于七个不同的源头(查询、RAG上下文、过去令牌、自身令牌、FFN、最终LayerNorm、初始嵌入),并按词性标签聚合,来检测RAG系统中的幻觉。该方法在包括Llama2、Llama3、Mistral和Qwen在内的五个大语言模型上实现了最先进的性能。
本论文介绍了FRANQ方法,用于检测检索增强生成(RAG)系统中的幻觉问题。该方法应用不同的不确定性量化技术来区分事实性和对检索上下文的忠实性。作者构建了一个同时标注事实性和忠实性的新数据集,并证明FRANQ在多个数据集和大语言模型上的事实错误检测性能优于现有方法。
RAGognizer 提出了一种幻觉感知微调方法,该方法将轻量级检测头集成到大语言模型(LLMs)中,以实现语言建模与幻觉检测的联合优化,适用于 RAG 系统。论文介绍了 RAGognize,一个包含自然发生的闭域幻觉及其词元级标注的数据集,并展示了在降低幻觉率的同时,实现了最先进的幻觉检测性能,且不损害语言质量。
本文介绍了SIVR(序列内部方差表示),一个有监督框架,通过分析隐层状态中的逐token和逐层方差模式来检测LLM中的幻觉现象,无需依赖严格的架构假设。该方法聚合完整序列方差特征来学习事实错误的时间模式,并在较小训练集上表现出更好的泛化能力。
OpenAI 推出 SimpleQA,一个新的事实性基准数据集,包含 4,326 个简短事实性问题,旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量,估计错误率仅为 ~3%,GPT-4o 得分不到 40%。