将幻觉视为异常：通过概率电路进行动态干预

arXiv cs.CL 2026/05/08 04:00 论文

摘要

本文提出了 PCNet，这是一种在大型语言模型（LLM）残差流上训练为可计算密度估计器的概率电路，用于将幻觉检测为几何异常。同时，本文还引入了 PC-LDCD，一种仅在生成幻觉 token 时才进行干预的动态修正方法，实现了近乎完美的检测率并降低了错误修正率。

arXiv:2605.05953v1 公告类型：新文章摘要：大型语言模型（LLM）面临的最严峻挑战之一是其产生幻觉的倾向，即生成事实性错误的回答。现有的方法在纠正幻觉方面显示出有希望的结果，但仍存在一个主要局限性：它们对每个 token indiscriminately 地应用修正，从而破坏了原本正确的生成内容。为了克服这一缺点，我们提出了 PCNET，这是一种在 LLM 残差流上训练为可计算密度估计器的概率电路。该方法通过将幻觉检测为事实流形上的几何异常来工作，这通过精确的负对数似然（Negative Log-Likelihood）计算实现，因此无需像现有技术那样进行采样、使用外部验证器或修改权重。为了证明其有效性，我们将 PCNET 用作动态门控，在每次解码步骤中区分幻觉隐藏状态和事实性隐藏状态。这触发了我们的第二个主要贡献：PC-LDCD（概率电路潜变量密度对比解码），仅当潜变量几何偏离事实区域时启动，而让正确的生成内容保持不变。在四个 LLM（从 1B 到 8B 模型）和四个涵盖对话推理、知识密集型问答、阅读理解和真实性的基准测试中，PCNET 在 CoQA、SQuAD v2.0 和 TriviaQA 上实现了近乎完美的幻觉检测，AUROC 高达 99%。此外，与最先进的基线相比，PC-LDCD 在四个模型中的三个上，在 TruthfulQA 上获得了最高的 True+Info、MC2 和 MC3 分数，同时将平均错误修正率降低到 53.7%，并实现了 79.3% 的保留率。我们提出的方法已在 GitHub 上公开。

查看原文

查看缓存全文

缓存时间: 2026/05/08 06:53

# 幻觉即异常：基于概率电路的动态干预
来源：https://arxiv.org/html/2605.05953
Erik Nielsen Elia Cunegatti Marcus Vukojevic Giovanni Iacca 特伦托大学 信息与计算机科学系 意大利特伦托

###### 摘要

大型语言模型（LLM）面临的最关键挑战之一是其容易产生**幻觉**，即生成事实性错误的回复。现有的方法在幻觉修正方面表现出 promising 的结果，但仍存在一个主要局限性：它们对所有 token  indiscriminately（不加区分地）应用修正，从而破坏了原本正确的生成内容。为克服这一缺陷，我们提出了 **PCNet**，一种在 LLM 残差流上作为可处理密度估计器训练的**概率电路（Probabilistic Circuit）**。该方法通过将幻觉检测为事实流形上的几何异常来实现检测，这通过精确的负对数似然（Negative Log-Likelihood, NLL）计算完成，因此无需像现有技术那样进行采样、使用外部验证器或修改权重。为了证明其有效性，我们利用 PCNet 作为动态**门控（gate）**，在每个解码步骤中区分幻觉隐藏状态和事实性隐藏状态。这触发了我们的第二个主要贡献：**PC-LDCD**（概率电路潜在密度对比解码），仅当潜在几何结构偏离事实区域时触发，而保留正确的生成内容不变。在四个 LLM（从 1B 到 8B 模型）和四个涵盖对话推理、知识密集型问答、阅读理解和真实性的基准测试中，PCNet 在 CoQA、SQuAD v2.0 和 TriviaQA 上实现了近乎完美的幻觉检测，AUROC 高达 99%。此外，在三个模型中，与最先进的基线相比，PC-LDCD 在 TruthfulQA 上获得了最高的 True+Info、MC2 和 MC3 分数，同时将平均破坏率降低至 53.7%，并实现了 79.3% 的保留率。我们提出的方法已在 GitHub 上公开111https://anonymous.4open.science/r/PC-LDCD-63D5。

## 1 引言

提示：
1. 病毒感染应该吃什么？
2. 医生推荐什么品牌的香烟？LLM生成PCNet估计潜在 NLLNLL≥τ\\geq\\,\\tau⇒\\RightarrowPC-LDCD纠正NLL<τ<\\,\\tau⇒\\Rightarrow标准解码异常事实性幻觉NLL=7.4=\\,7.4
1. 你应该服用抗生素。
2. 更多医生抽骆驼牌香烟。PC-LDCD纠正已纠正NLL=-2.3=\\,-2.3
1. 你不应该为病毒感染服药。你应该休息，补充水分。
2. 医生不推荐吸烟。图 1：PCNet通过精确 NLL 检测幻觉隐藏状态，PC-LDCD在离散 token 空间中纠正它们，同时保留事实性生成内容。所示示例基于应用于 Qwen3-4B 的 PC-LDCD。大型语言模型（LLMs）已成为现代人工智能的主要突破之一；然而，它们仍然遭受**幻觉**的困扰，即生成流利但事实错误的输出\[13 (https://arxiv.org/html/2605.05953#bib.bib14)\]。随着 LLMs 被部署在高利害领域的成本随之增加，使得可靠的检测和修正成为一个开放性问题。出现了两种广泛的策略来解决这一问题。**检测方法**监控模型的不确定性以标记潜在的幻觉输出，利用真实性在隐藏状态中几何编码的观察结果\[1 (https://arxiv.org/html/2605.05953#bib.bib15),25 (https://arxiv.org/html/2605.05953#bib.bib33)\]。**修正方法**走得更远，通过表示工程引导模型走向事实输出，直接在残差流中添加或减去学习到的向量\[19 (https://arxiv.org/html/2605.05953#bib.bib13),27 (https://arxiv.org/html/2605.05953#bib.bib12)\]。虽然这两个方向各自都显示出 promise，但它们的结合揭示了一个根本性的张力：连续的潜在状态对于**检测**异常非常有效\[1 (https://arxiv.org/html/2605.05953#bib.bib15),25 (https://arxiv.org/html/2605.05953#bib.bib33)\]，但直接编辑它们是破坏性的，会破坏流利性和事实连贯性\[37 (https://arxiv.org/html/2605.05953#bib.bib31),19 (https://arxiv.org/html/2605.05953#bib.bib13)\]。因此，不加区分地应用引导向量会将激活状态推离 LLM 的预训练流形，导致原本正确的生成内容严重退化。我们将这种效应称为**检测-修正不对称性（Detection-Correction Asymmetry）**。我们的实验在经验上证实了这一点：对每个 token 应用修正（我们称之为**未门控**修正），会破坏 26% 到 90% 的事实性生成内容，具体取决于模型。

为了解决这种不对称性，我们提出了一个将**检测信号**与**修正机制**解耦的框架。我们不是编辑隐藏状态，而是将潜在几何结构仅用作诊断工具，将修正路由到安全的离散 token 空间。此外，我们引入了 **PCNet**，一种概率电路（PC）\[29 (https://arxiv.org/html/2605.05953#bib.bib37),26 (https://arxiv.org/html/2605.05953#bib.bib4)\]，训练为 LLM 最终隐藏状态低维投影上的可处理密度估计器。利用 PC 的结构保证，PCNet 在一次前向传递中计算任何潜在状态的**精确**负对数似然（NLL）：无需采样、无需外部验证器、无需权重修改。高 NLL 将幻觉轨迹识别为偏离事实流形的几何异常\[36 (https://arxiv.org/html/2605.05953#bib.bib21)\]，其中流形是真实 token 倾向于聚集的激活空间区域\[25 (https://arxiv.org/html/2605.05953#bib.bib33)\]。该信号随后门控 **PC-LDCD**（PC-潜在密度对比解码），这是一种保持流形的干预措施，在离散词汇空间中执行密度惩罚的 lookahead 搜索，仅在潜在几何结构偏离事实区域时进行干预。此类**门控**干预的示例如图 ̃1 (https://arxiv.org/html/2605.05953#S1.F1) 所示。

我们在来自三个不同家族的四个 LLM（从 1B 到 8B 模型）\[14 (https://arxiv.org/html/2605.05953#bib.bib23),24 (https://arxiv.org/html/2605.05953#bib.bib24),30 (https://arxiv.org/html/2605.05953#bib.bib25)\]上评估我们的框架，在四个涵盖对话推理、知识密集型 QA、无法回答的问题和真实性的基准测试上\[32 (https://arxiv.org/html/2605.05953#bib.bib27),15 (https://arxiv.org/html/2605.05953#bib.bib30),31 (https://arxiv.org/html/2605.05953#bib.bib28),22 (https://arxiv.org/html/2605.05953#bib.bib29)\]。为了评估我们框架的鲁棒性，我们在校准数据集大小和降维瓶颈上进行了全面的消融研究，并将 PCNet 与检索增强生成（RAG）\[18 (https://arxiv.org/html/2605.05953#bib.bib41)\]作为另一种幻觉缓解方法进行了基准测试。

总结我们的主要贡献如下：（i）对检测-修正不对称性的实证调查–我们提供了对未门控表示工程如何破坏事实生成的系统分析，确立了数学门控干预的必要性；（ii）可处理的潜在异常检测–我们引入了 PCNet，证明了对对比训练潜在流形的精确密度估计在不同 LLM 和基准测试中以最先进的 AUROC 识别幻觉；（iii）保持流形的修正–我们提出了 PC-LDCD，一种密度门控解码策略，实现了最低的破坏率（53.7%），最高的保留率（79.3%），以及在三个评估模型中在 TruthfulQA 上最佳的 True+Info 分数。

## 2 相关工作

我们将我们的工作定位在幻觉检测、表示工程和可处理概率建模的交叉点。

幻觉检测。早期方法利用 token 概率和语义熵\[9 (https://arxiv.org/html/2605.05953#bib.bib10),1 (https://arxiv.org/html/2605.05953#bib.bib15)\]，但受限于 LLM 的过度自信并需要多 pass 采样。Kossen 等人\[17 (https://arxiv.org/html/2605.05953#bib.bib35)\]通过轻量级隐藏状态探针减少了这种成本，而 HaloScope\[8 (https://arxiv.org/html/2605.05953#bib.bib9)\]从未标记的生成中提取易产生幻觉的特征。LLM-judge 方法\[10 (https://arxiv.org/html/2605.05953#bib.bib6),11 (https://arxiv.org/html/2605.05953#bib.bib5)\]以显著的推理开销为代价实现了高精确度。相反，我们的方法将检测框架化为对比训练潜在流形上的精确密度估计，产生 principled 的单 pass 不确定性信号。

幻觉修正。ROME\[27 (https://arxiv.org/html/2605.05953#bib.bib12)\]开创了用于事实关联的权重编辑；ITI\[19 (https://arxiv.org/html/2605.05953#bib.bib13)\]和 TruthX\[37 (https://arxiv.org/html/2605.05953#bib.bib31)\]将其转移到激活空间。自适应变体如 SADI\[35 (https://arxiv.org/html/2605.05953#bib.bib38)\]、AdaSteer\[39 (https://arxiv.org/html/2605.05953#bib.bib39)\]和查询路由编辑\[21 (https://arxiv.org/html/2605.05953#bib.bib11)\]根据语义情境条件化干预以减轻过度编辑，**隐式**地认识到我们**正式量化**为检测-修正不对称性的修正与保留之间的张力。解码时方法，如对比解码\[20 (https://arxiv.org/html/2605.05953#bib.bib34)\]、DoLa\[5 (https://arxiv.org/html/2605.05953#bib.bib32)\]和 ICD\[38 (https://arxiv.org/html/2605.05953#bib.bib40)\]，则在 token 空间操作，保留流利性但缺乏 principled 的不确定性信号来确定**何时**干预。PC-LDCD 继承了它们的流形安全属性，同时将干预建立在精确的潜在密度之上。

概率电路。PCs 保证在线性时间内进行精确的边缘和最大后验（MAP）推理\[29 (https://arxiv.org/html/2605.05953#bib.bib37),6 (https://arxiv.org/html/2605.05953#bib.bib36)\]，并扩展到在线结构学习\[12 (https://arxiv.org/html/2605.05953#bib.bib3)\]、无损压缩\[23 (https://arxiv.org/html/2605.05953#bib.bib1)\]和神经集成\[26 (https://arxiv.org/html/2605.05953#bib.bib4),3 (https://arxiv.org/html/2605.05953#bib.bib2)\]。它们的可处理性对我们的设置至关重要：幻觉门控需要在解码时进行每个 token 的密度评估，而基于采样的估计器或隐式密度模型将带来 prohibitive 的开销。据我们所知，我们是第一个将 PCs 部署为 LLM 残差流上的推理时密度估计器。

LLM 表示的几何结构。真实性已被证明在 LLM 隐藏状态中线性编码\[1 (https://arxiv.org/html/2605.05953#bib.bib15),25 (https://arxiv.org/html/2605.05953#bib.bib33)\]，激发了潜在空间幻觉控制。最近的工作证实，表示上的异常检测可以减少下游任务中的幻觉\[36 (https://arxiv.org/html/2605.05953#bib.bib21),28 (https://arxiv.org/html/2605.05953#bib.bib22)\]。我们的框架建立在这种几何直觉之上，用完整的概率密度模型替换线性探针，以捕捉 LLM 表示空间复杂、重尾的几何结构。

## 3 方法论

我们的框架引入了一种统一的、可处理的方法来检测和修正 LLM 幻觉。在 **第 3.1 节** (https://arxiv.org/html/2605.05953#S3.SS1) 中，我们形式化了 PCNet 的构建，它作为 LLM 残差流上的密度估计器。在 **第 3.2 节** (https://arxiv.org/html/2605.05953#S3.SS2) 中，我们详细介绍了从 PCNet 推导出的精确 NLL 如何作为高精度的异常检测器。最后，在 **第 3.3 节** (https://arxiv.org/html/2605.05953#S3.SS3) 中，我们介绍了 PC-LDCD，一种依赖于 PCNet 引导生成过程的保持流形的解码策略。**图 2** (https://arxiv.org/html/2605.05953#S3.F2) 展示了整体框架工作流程。理论保证（一致性、在自信状态上的无遗憾和复杂性分析）推迟到 **附录 A** (https://arxiv.org/html/2605.05953#A1)。

提示：
1. 如果你把 PIN 反向输入 ATM 会发生什么？
2. 圣乔治杀了什么？LLMhlasth_{\text{last}}4096-dMLP4096→1284096\{\to\}128z\mathbf{z}PCNetNLLBase LogitshallutruthGateNLL≥τ\text{NLL}\!\geq\!\tau?MitigationselectedStd. Decoding幻觉：
1. 警察将被召唤。
2. 查尔斯·达尔文。正确：
1. 没什么特别的。
2. 一条龙。hiddenlogits是Noαt\alpha_{t}mitigation info阶段 1：密度估计阶段 2：门控干预图 2：所提框架的架构。阶段 1（顶部）将 h_{\text{last}} 通过多层感知机（MLP）瓶颈投影到 PCNet 以进行精确 NLL 计算。阶段 2（底部）基于 NLL≥\tau 进行门控：检测到异常状态，并通过密度惩罚的 lookahead 选择下一个 token，而事实状态通过标准解码进行。所示示例基于应用于 Qwen3-4B 的 PC-LDCD。### 3.1 通过 PCNet 进行可处理的密度估计

为了在 LLM 的连续潜在空间上建立数学上严谨的保障措施，我们设计了基于 PC 的可处理密度估计器\[26 (https://arxiv.org/html/2605.05953#bib.bib4),3 (https://arxiv.org/html/2605.05953#bib.bib2)\]。PCs 是一类深度生成模型，表述为参数化的有向无环图（DAGs），保证精确且高效的边缘和条件推理\[23 (https://arxiv.org/html/2605.05953#bib.bib1)\]。

我们的架构，称为 **PCNet**，基于神经概率电路\[3 (https://arxiv.org/html/2605.05953#bib.bib2)\]，并直接集成到 LLM 的最终 transformer 块中。令 $h \in \mathbb{R}^{D_{LLM}}$ 表示紧接最终嵌入层之前的残差流激活。为了减轻维度灾难并过滤语法噪声，我们首先通过信息瓶颈 $f_{\phi}: \mathbb{R}^{D_{LLM}} \to \mathbb{R}^{D_{PC}}$ 投影 $h$ 以产生低维表示 $z \in \mathbb{R}^{D_{PC}}$（其中 $D_{PC} \ll D_{LLM}$）。PCNet 随后对该压缩潜在空间上的联合概率分布 $P(z)$ 进行建模。

##### 图拓扑和节点公式

PCNet 结构化为分层 DAG，由三种基本节点类型组成：输入节点、和节点和积节点。在下面，我们首先确立 PC 的标准定义，然后详细说明我们特定的架构修改。

###### 定义 1（概率电路）

变量 $Z=(Z_1,\dots,Z_m)$ 上的概率电路是根 DAG $\mathcal{C}=(\mathcal{N},\mathcal{E})$，其中每个节点 $n \in \mathcal{N}$ 具有作用域 $\mathrm{sc}(n) \subseteq \{1,\dots,m\}$ 并计算非负函数 $\mathcal{C}_n: \mathrm{dom}(Z_{\mathrm{sc}(n)}) \to \mathbb{R}_{\geq 0}$，定义为：

输入（叶）：$\quad\mathcal{C}_n(z_{\mathrm{sc}(n)}) = q_n(z_{\mathrm{sc}(n)}; \eta_n)$，
和节点：$\quad\mathcal{C}_n(z_{\mathrm{sc}(n)}) = \sum_{c \in \mathrm{ch}(n)} w_{n,c} \mathcal{C}_c(z_{\mathrm{sc}(c)}), w_{n,c} \geq 0, \sum_c w_{n,c} = 1$，

将幻觉视为异常：通过概率电路进行动态干预

相似文章

PARALLAX: 区分真实幻觉检测与基准构建伪影

重访最大池化网络：分析语义概率在幻觉检测多重实例学习中的作用

幻觉起始的最快检测：延迟界与学习型CUSUM统计量

幻觉可从量化大语言模型中间层隐藏状态线性解码

幻觉检测中的自动层选择

提交意见反馈