我们的ICML论文:可预测幻觉(信息预算弃权门)及今日发布的免训练开源权重实现ntkMirror
摘要
一篇被ICML 2026接收的论文提出了通过信息预算弃权门实现可预测幻觉的方法,并发布了ntkMirror——一种免训练的开源权重实现,通过在信息不足时弃权来减少幻觉,在约24%弃权率下实现0.0–0.7%的幻觉率。
我们的论文《可预测的压缩失败:顺序敏感性与基于证据的二值裁决的信息预算》已被ICML 2026接收。论文链接:[https://arxiv.org/abs/2509.11208](https://arxiv.org/abs/2509.11208) **核心思想:** 在基于证据的问答中,可交换证据的呈现顺序会改变模型的回答概率(排列弥散)。我们将顺序视为干扰变量,推导了期望级解压定律(EDFL),将期望信息预算与可实现可靠性关联起来,并将其转化为固定的ISR=1的答案/弃权门,无需阈值调参。当信息不足时,模型选择弃权而非猜测。在论文预设的保留审计中,该门在约24%弃权率下实现了0.0–0.7%的幻觉率(尝试准确率为80.5%),其中ISR=1边界由理论确定而非调参。**今日发布(ntkMirror):** 该门的免训练实现,适用于本地开源权重模型。它对每个主张在多种证据排序下进行评分(排序边缘验证器,精确分支评分),根据各排列概率计算ISR,并门控答案/弃权。无需微调,无需第二个模型,可离线运行于自有权重。我们还提供了一个融合内核,用于批量处理排列前向传播:在fp32下与朴素循环结果比特一致,速度提升2.6–10倍。**新结果(论文未包含):** 作为幻觉检测器在小型本地模型上运行,在VitaminC / BoolQ / SciFact上的AUROC:|模型|VitaminC|BoolQ|SciFact| |:-|:-|:-|:-| |Qwen2.5-0.5B|0.78|0.69|0.80| |Qwen2.5-1.5B|0.69|0.78|0.91| |Gemma E4B|0.88|0.84|0.96| |Qwen2.5-7B|0.90|0.87|0.94| 分离度随模型规模增大,在SciFact和较大模型上效果最强。作为门用于平衡数据时,被接受的正确主张比例从50%提升至约75–90%(取决于模型/数据集),代价是丢弃约10–20%的正确主张。该内核不影响准确性(AUROC差距≤0.008),仅使门控更廉价。如果您觉得有用,请告知我们 [https://github.com/leochlon/ntkmirror](https://github.com/leochlon/ntkmirror)
相似文章
将幻觉视为异常:通过概率电路进行动态干预
本文提出了 PCNet,这是一种在大型语言模型(LLM)残差流上训练为可计算密度估计器的概率电路,用于将幻觉检测为几何异常。同时,本文还引入了 PC-LDCD,一种仅在生成幻觉 token 时才进行干预的动态修正方法,实现了近乎完美的检测率并降低了错误修正率。
PARALLAX: 区分真实幻觉检测与基准构建伪影
本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。
基于智能体AI、嵌套学习与语义缓存的幻觉缓解及AI可持续性
本文提出了一种记忆增强的多智能体架构,采用嵌套学习、连续记忆系统和语义缓存来缓解LLM流程中的幻觉问题,在显著减少事实错误的同时提高了运营效率。
RAGognizer:通过检测头集成实现幻觉感知微调
RAGognizer 提出了一种幻觉感知微调方法,该方法将轻量级检测头集成到大语言模型(LLMs)中,以实现语言建模与幻觉检测的联合优化,适用于 RAG 系统。论文介绍了 RAGognize,一个包含自然发生的闭域幻觉及其词元级标注的数据集,并展示了在降低幻觉率的同时,实现了最先进的幻觉检测性能,且不损害语言质量。
幻觉起始的最快检测:延迟界与学习型CUSUM统计量
将词元级幻觉检测重新表述为最快变化检测问题,建立了检测延迟的理论下界,并表明因果循环模型实现了接近最优的性能,优于线性基线。