我们的ICML论文：可预测幻觉（信息预算弃权门）及今日发布的免训练开源权重实现ntkMirror

Reddit r/LocalLLaMA 2026/06/09 16:23 论文

hallucination-detection abstention open-weights icml-paper ntkmirror order-sensitivity

摘要

一篇被ICML 2026接收的论文提出了通过信息预算弃权门实现可预测幻觉的方法，并发布了ntkMirror——一种免训练的开源权重实现，通过在信息不足时弃权来减少幻觉，在约24%弃权率下实现0.0–0.7%的幻觉率。

我们的论文《可预测的压缩失败：顺序敏感性与基于证据的二值裁决的信息预算》已被ICML 2026接收。论文链接：[https://arxiv.org/abs/2509.11208](https://arxiv.org/abs/2509.11208) **核心思想：** 在基于证据的问答中，可交换证据的呈现顺序会改变模型的回答概率（排列弥散）。我们将顺序视为干扰变量，推导了期望级解压定律（EDFL），将期望信息预算与可实现可靠性关联起来，并将其转化为固定的ISR=1的答案/弃权门，无需阈值调参。当信息不足时，模型选择弃权而非猜测。在论文预设的保留审计中，该门在约24%弃权率下实现了0.0–0.7%的幻觉率（尝试准确率为80.5%），其中ISR=1边界由理论确定而非调参。**今日发布（ntkMirror）：** 该门的免训练实现，适用于本地开源权重模型。它对每个主张在多种证据排序下进行评分（排序边缘验证器，精确分支评分），根据各排列概率计算ISR，并门控答案/弃权。无需微调，无需第二个模型，可离线运行于自有权重。我们还提供了一个融合内核，用于批量处理排列前向传播：在fp32下与朴素循环结果比特一致，速度提升2.6–10倍。**新结果（论文未包含）：** 作为幻觉检测器在小型本地模型上运行，在VitaminC / BoolQ / SciFact上的AUROC：|模型|VitaminC|BoolQ|SciFact| |:-|:-|:-|:-| |Qwen2.5-0.5B|0.78|0.69|0.80| |Qwen2.5-1.5B|0.69|0.78|0.91| |Gemma E4B|0.88|0.84|0.96| |Qwen2.5-7B|0.90|0.87|0.94| 分离度随模型规模增大，在SciFact和较大模型上效果最强。作为门用于平衡数据时，被接受的正确主张比例从50%提升至约75–90%（取决于模型/数据集），代价是丢弃约10–20%的正确主张。该内核不影响准确性（AUROC差距≤0.008），仅使门控更廉价。如果您觉得有用，请告知我们 [https://github.com/leochlon/ntkmirror](https://github.com/leochlon/ntkmirror)

查看原文

我们的ICML论文：可预测幻觉（信息预算弃权门）及今日发布的免训练开源权重实现ntkMirror

相似文章

将幻觉视为异常：通过概率电路进行动态干预

PARALLAX: 区分真实幻觉检测与基准构建伪影

基于智能体AI、嵌套学习与语义缓存的幻觉缓解及AI可持续性

RAGognizer：通过检测头集成实现幻觉感知微调

幻觉起始的最快检测：延迟界与学习型CUSUM统计量

提交意见反馈