将幻觉视为异常:通过概率电路进行动态干预

arXiv cs.CL 论文

摘要

本文提出了 PCNet,这是一种在大型语言模型(LLM)残差流上训练为可计算密度估计器的概率电路,用于将幻觉检测为几何异常。同时,本文还引入了 PC-LDCD,一种仅在生成幻觉 token 时才进行干预的动态修正方法,实现了近乎完美的检测率并降低了错误修正率。

arXiv:2605.05953v1 公告类型:新文章 摘要:大型语言模型(LLM)面临的最严峻挑战之一是其产生幻觉的倾向,即生成事实性错误的回答。现有的方法在纠正幻觉方面显示出有希望的结果,但仍存在一个主要局限性:它们对每个 token indiscriminately 地应用修正,从而破坏了原本正确的生成内容。为了克服这一缺点,我们提出了 PCNET,这是一种在 LLM 残差流上训练为可计算密度估计器的概率电路。该方法通过将幻觉检测为事实流形上的几何异常来工作,这通过精确的负对数似然(Negative Log-Likelihood)计算实现,因此无需像现有技术那样进行采样、使用外部验证器或修改权重。为了证明其有效性,我们将 PCNET 用作动态门控,在每次解码步骤中区分幻觉隐藏状态和事实性隐藏状态。这触发了我们的第二个主要贡献:PC-LDCD(概率电路潜变量密度对比解码),仅当潜变量几何偏离事实区域时启动,而让正确的生成内容保持不变。在四个 LLM(从 1B 到 8B 模型)和四个涵盖对话推理、知识密集型问答、阅读理解和真实性的基准测试中,PCNET 在 CoQA、SQuAD v2.0 和 TriviaQA 上实现了近乎完美的幻觉检测,AUROC 高达 99%。此外,与最先进的基线相比,PC-LDCD 在四个模型中的三个上,在 TruthfulQA 上获得了最高的 True+Info、MC2 和 MC3 分数,同时将平均错误修正率降低到 53.7%,并实现了 79.3% 的保留率。我们提出的方法已在 GitHub 上公开。
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:53

# 幻觉即异常:基于概率电路的动态干预
来源:https://arxiv.org/html/2605.05953
Erik Nielsen Elia Cunegatti Marcus Vukojevic Giovanni Iacca 特伦托大学 信息与计算机科学系 意大利特伦托

###### 摘要

大型语言模型(LLM)面临的最关键挑战之一是其容易产生**幻觉**,即生成事实性错误的回复。现有的方法在幻觉修正方面表现出 promising 的结果,但仍存在一个主要局限性:它们对所有 token  indiscriminately(不加区分地)应用修正,从而破坏了原本正确的生成内容。为克服这一缺陷,我们提出了 **PCNet**,一种在 LLM 残差流上作为可处理密度估计器训练的**概率电路(Probabilistic Circuit)**。该方法通过将幻觉检测为事实流形上的几何异常来实现检测,这通过精确的负对数似然(Negative Log-Likelihood, NLL)计算完成,因此无需像现有技术那样进行采样、使用外部验证器或修改权重。为了证明其有效性,我们利用 PCNet 作为动态**门控(gate)**,在每个解码步骤中区分幻觉隐藏状态和事实性隐藏状态。这触发了我们的第二个主要贡献:**PC-LDCD**(概率电路潜在密度对比解码),仅当潜在几何结构偏离事实区域时触发,而保留正确的生成内容不变。在四个 LLM(从 1B 到 8B 模型)和四个涵盖对话推理、知识密集型问答、阅读理解和真实性的基准测试中,PCNet 在 CoQA、SQuAD v2.0 和 TriviaQA 上实现了近乎完美的幻觉检测,AUROC 高达 99%。此外,在三个模型中,与最先进的基线相比,PC-LDCD 在 TruthfulQA 上获得了最高的 True+Info、MC2 和 MC3 分数,同时将平均破坏率降低至 53.7%,并实现了 79.3% 的保留率。我们提出的方法已在 GitHub 上公开111https://anonymous.4open.science/r/PC-LDCD-63D5。

## 1 引言

提示:
1. 病毒感染应该吃什么?
2. 医生推荐什么品牌的香烟?LLM生成PCNet估计潜在 NLLNLL≥τ\\geq\\,\\tau⇒\\RightarrowPC-LDCD纠正NLL<τ<\\,\\tau⇒\\Rightarrow标准解码异常事实性幻觉NLL=7.4=\\,7.4
1. 你应该服用抗生素。
2. 更多医生抽骆驼牌香烟。PC-LDCD纠正已纠正NLL=-2.3=\\,-2.3
1. 你不应该为病毒感染服药。你应该休息,补充水分。
2. 医生不推荐吸烟。图 1:PCNet通过精确 NLL 检测幻觉隐藏状态,PC-LDCD在离散 token 空间中纠正它们,同时保留事实性生成内容。所示示例基于应用于 Qwen3-4B 的 PC-LDCD。大型语言模型(LLMs)已成为现代人工智能的主要突破之一;然而,它们仍然遭受**幻觉**的困扰,即生成流利但事实错误的输出\[13 (https://arxiv.org/html/2605.05953#bib.bib14)\]。随着 LLMs 被部署在高利害领域的成本随之增加,使得可靠的检测和修正成为一个开放性问题。出现了两种广泛的策略来解决这一问题。**检测方法**监控模型的不确定性以标记潜在的幻觉输出,利用真实性在隐藏状态中几何编码的观察结果\[1 (https://arxiv.org/html/2605.05953#bib.bib15),25 (https://arxiv.org/html/2605.05953#bib.bib33)\]。**修正方法**走得更远,通过表示工程引导模型走向事实输出,直接在残差流中添加或减去学习到的向量\[19 (https://arxiv.org/html/2605.05953#bib.bib13),27 (https://arxiv.org/html/2605.05953#bib.bib12)\]。虽然这两个方向各自都显示出 promise,但它们的结合揭示了一个根本性的张力:连续的潜在状态对于**检测**异常非常有效\[1 (https://arxiv.org/html/2605.05953#bib.bib15),25 (https://arxiv.org/html/2605.05953#bib.bib33)\],但直接编辑它们是破坏性的,会破坏流利性和事实连贯性\[37 (https://arxiv.org/html/2605.05953#bib.bib31),19 (https://arxiv.org/html/2605.05953#bib.bib13)\]。因此,不加区分地应用引导向量会将激活状态推离 LLM 的预训练流形,导致原本正确的生成内容严重退化。我们将这种效应称为**检测-修正不对称性(Detection-Correction Asymmetry)**。我们的实验在经验上证实了这一点:对每个 token 应用修正(我们称之为**未门控**修正),会破坏 26% 到 90% 的事实性生成内容,具体取决于模型。

为了解决这种不对称性,我们提出了一个将**检测信号**与**修正机制**解耦的框架。我们不是编辑隐藏状态,而是将潜在几何结构仅用作诊断工具,将修正路由到安全的离散 token 空间。此外,我们引入了 **PCNet**,一种概率电路(PC)\[29 (https://arxiv.org/html/2605.05953#bib.bib37),26 (https://arxiv.org/html/2605.05953#bib.bib4)\],训练为 LLM 最终隐藏状态低维投影上的可处理密度估计器。利用 PC 的结构保证,PCNet 在一次前向传递中计算任何潜在状态的**精确**负对数似然(NLL):无需采样、无需外部验证器、无需权重修改。高 NLL 将幻觉轨迹识别为偏离事实流形的几何异常\[36 (https://arxiv.org/html/2605.05953#bib.bib21)\],其中流形是真实 token 倾向于聚集的激活空间区域\[25 (https://arxiv.org/html/2605.05953#bib.bib33)\]。该信号随后门控 **PC-LDCD**(PC-潜在密度对比解码),这是一种保持流形的干预措施,在离散词汇空间中执行密度惩罚的 lookahead 搜索,仅在潜在几何结构偏离事实区域时进行干预。此类**门控**干预的示例如图 ̃1 (https://arxiv.org/html/2605.05953#S1.F1) 所示。

我们在来自三个不同家族的四个 LLM(从 1B 到 8B 模型)\[14 (https://arxiv.org/html/2605.05953#bib.bib23),24 (https://arxiv.org/html/2605.05953#bib.bib24),30 (https://arxiv.org/html/2605.05953#bib.bib25)\]上评估我们的框架,在四个涵盖对话推理、知识密集型 QA、无法回答的问题和真实性的基准测试上\[32 (https://arxiv.org/html/2605.05953#bib.bib27),15 (https://arxiv.org/html/2605.05953#bib.bib30),31 (https://arxiv.org/html/2605.05953#bib.bib28),22 (https://arxiv.org/html/2605.05953#bib.bib29)\]。为了评估我们框架的鲁棒性,我们在校准数据集大小和降维瓶颈上进行了全面的消融研究,并将 PCNet 与检索增强生成(RAG)\[18 (https://arxiv.org/html/2605.05953#bib.bib41)\]作为另一种幻觉缓解方法进行了基准测试。

总结我们的主要贡献如下:(i)对检测-修正不对称性的实证调查–我们提供了对未门控表示工程如何破坏事实生成的系统分析,确立了数学门控干预的必要性;(ii)可处理的潜在异常检测–我们引入了 PCNet,证明了对对比训练潜在流形的精确密度估计在不同 LLM 和基准测试中以最先进的 AUROC 识别幻觉;(iii)保持流形的修正–我们提出了 PC-LDCD,一种密度门控解码策略,实现了最低的破坏率(53.7%),最高的保留率(79.3%),以及在三个评估模型中在 TruthfulQA 上最佳的 True+Info 分数。

## 2 相关工作

我们将我们的工作定位在幻觉检测、表示工程和可处理概率建模的交叉点。

幻觉检测。早期方法利用 token 概率和语义熵\[9 (https://arxiv.org/html/2605.05953#bib.bib10),1 (https://arxiv.org/html/2605.05953#bib.bib15)\],但受限于 LLM 的过度自信并需要多 pass 采样。Kossen 等人\[17 (https://arxiv.org/html/2605.05953#bib.bib35)\]通过轻量级隐藏状态探针减少了这种成本,而 HaloScope\[8 (https://arxiv.org/html/2605.05953#bib.bib9)\]从未标记的生成中提取易产生幻觉的特征。LLM-judge 方法\[10 (https://arxiv.org/html/2605.05953#bib.bib6),11 (https://arxiv.org/html/2605.05953#bib.bib5)\]以显著的推理开销为代价实现了高精确度。相反,我们的方法将检测框架化为对比训练潜在流形上的精确密度估计,产生 principled 的单 pass 不确定性信号。

幻觉修正。ROME\[27 (https://arxiv.org/html/2605.05953#bib.bib12)\]开创了用于事实关联的权重编辑;ITI\[19 (https://arxiv.org/html/2605.05953#bib.bib13)\]和 TruthX\[37 (https://arxiv.org/html/2605.05953#bib.bib31)\]将其转移到激活空间。自适应变体如 SADI\[35 (https://arxiv.org/html/2605.05953#bib.bib38)\]、AdaSteer\[39 (https://arxiv.org/html/2605.05953#bib.bib39)\]和查询路由编辑\[21 (https://arxiv.org/html/2605.05953#bib.bib11)\]根据语义情境条件化干预以减轻过度编辑,**隐式**地认识到我们**正式量化**为检测-修正不对称性的修正与保留之间的张力。解码时方法,如对比解码\[20 (https://arxiv.org/html/2605.05953#bib.bib34)\]、DoLa\[5 (https://arxiv.org/html/2605.05953#bib.bib32)\]和 ICD\[38 (https://arxiv.org/html/2605.05953#bib.bib40)\],则在 token 空间操作,保留流利性但缺乏 principled 的不确定性信号来确定**何时**干预。PC-LDCD 继承了它们的流形安全属性,同时将干预建立在精确的潜在密度之上。

概率电路。PCs 保证在线性时间内进行精确的边缘和最大后验(MAP)推理\[29 (https://arxiv.org/html/2605.05953#bib.bib37),6 (https://arxiv.org/html/2605.05953#bib.bib36)\],并扩展到在线结构学习\[12 (https://arxiv.org/html/2605.05953#bib.bib3)\]、无损压缩\[23 (https://arxiv.org/html/2605.05953#bib.bib1)\]和神经集成\[26 (https://arxiv.org/html/2605.05953#bib.bib4),3 (https://arxiv.org/html/2605.05953#bib.bib2)\]。它们的可处理性对我们的设置至关重要:幻觉门控需要在解码时进行每个 token 的密度评估,而基于采样的估计器或隐式密度模型将带来 prohibitive 的开销。据我们所知,我们是第一个将 PCs 部署为 LLM 残差流上的推理时密度估计器。

LLM 表示的几何结构。真实性已被证明在 LLM 隐藏状态中线性编码\[1 (https://arxiv.org/html/2605.05953#bib.bib15),25 (https://arxiv.org/html/2605.05953#bib.bib33)\],激发了潜在空间幻觉控制。最近的工作证实,表示上的异常检测可以减少下游任务中的幻觉\[36 (https://arxiv.org/html/2605.05953#bib.bib21),28 (https://arxiv.org/html/2605.05953#bib.bib22)\]。我们的框架建立在这种几何直觉之上,用完整的概率密度模型替换线性探针,以捕捉 LLM 表示空间复杂、重尾的几何结构。

## 3 方法论

我们的框架引入了一种统一的、可处理的方法来检测和修正 LLM 幻觉。在 **第 3.1 节** (https://arxiv.org/html/2605.05953#S3.SS1) 中,我们形式化了 PCNet 的构建,它作为 LLM 残差流上的密度估计器。在 **第 3.2 节** (https://arxiv.org/html/2605.05953#S3.SS2) 中,我们详细介绍了从 PCNet 推导出的精确 NLL 如何作为高精度的异常检测器。最后,在 **第 3.3 节** (https://arxiv.org/html/2605.05953#S3.SS3) 中,我们介绍了 PC-LDCD,一种依赖于 PCNet 引导生成过程的保持流形的解码策略。**图 2** (https://arxiv.org/html/2605.05953#S3.F2) 展示了整体框架工作流程。理论保证(一致性、在自信状态上的无遗憾和复杂性分析)推迟到 **附录 A** (https://arxiv.org/html/2605.05953#A1)。

提示:
1. 如果你把 PIN 反向输入 ATM 会发生什么?
2. 圣乔治杀了什么?LLMhlasth_{\text{last}}4096-dMLP4096→1284096\{\to\}128z\mathbf{z}PCNetNLLBase LogitshallutruthGateNLL≥τ\text{NLL}\!\geq\!\tau?MitigationselectedStd. Decoding幻觉:
1. 警察将被召唤。
2. 查尔斯·达尔文。正确:
1. 没什么特别的。
2. 一条龙。hiddenlogits是Noαt\alpha_{t}mitigation info阶段 1:密度估计阶段 2:门控干预图 2:所提框架的架构。阶段 1(顶部)将 h_{\text{last}} 通过多层感知机(MLP)瓶颈投影到 PCNet 以进行精确 NLL 计算。阶段 2(底部)基于 NLL≥\tau 进行门控:检测到异常状态,并通过密度惩罚的 lookahead 选择下一个 token,而事实状态通过标准解码进行。所示示例基于应用于 Qwen3-4B 的 PC-LDCD。### 3.1 通过 PCNet 进行可处理的密度估计

为了在 LLM 的连续潜在空间上建立数学上严谨的保障措施,我们设计了基于 PC 的可处理密度估计器\[26 (https://arxiv.org/html/2605.05953#bib.bib4),3 (https://arxiv.org/html/2605.05953#bib.bib2)\]。PCs 是一类深度生成模型,表述为参数化的有向无环图(DAGs),保证精确且高效的边缘和条件推理\[23 (https://arxiv.org/html/2605.05953#bib.bib1)\]。

我们的架构,称为 **PCNet**,基于神经概率电路\[3 (https://arxiv.org/html/2605.05953#bib.bib2)\],并直接集成到 LLM 的最终 transformer 块中。令 $h \in \mathbb{R}^{D_{LLM}}$ 表示紧接最终嵌入层之前的残差流激活。为了减轻维度灾难并过滤语法噪声,我们首先通过信息瓶颈 $f_{\phi}: \mathbb{R}^{D_{LLM}} \to \mathbb{R}^{D_{PC}}$ 投影 $h$ 以产生低维表示 $z \in \mathbb{R}^{D_{PC}}$(其中 $D_{PC} \ll D_{LLM}$)。PCNet 随后对该压缩潜在空间上的联合概率分布 $P(z)$ 进行建模。

##### 图拓扑和节点公式

PCNet 结构化为分层 DAG,由三种基本节点类型组成:输入节点、和节点和积节点。在下面,我们首先确立 PC 的标准定义,然后详细说明我们特定的架构修改。

###### 定义 1(概率电路)

变量 $Z=(Z_1,\dots,Z_m)$ 上的概率电路是根 DAG $\mathcal{C}=(\mathcal{N},\mathcal{E})$,其中每个节点 $n \in \mathcal{N}$ 具有作用域 $\mathrm{sc}(n) \subseteq \{1,\dots,m\}$ 并计算非负函数 $\mathcal{C}_n: \mathrm{dom}(Z_{\mathrm{sc}(n)}) \to \mathbb{R}_{\geq 0}$,定义为:

输入(叶):$\quad\mathcal{C}_n(z_{\mathrm{sc}(n)}) = q_n(z_{\mathrm{sc}(n)}; \eta_n)$,
和节点:$\quad\mathcal{C}_n(z_{\mathrm{sc}(n)}) = \sum_{c \in \mathrm{ch}(n)} w_{n,c} \mathcal{C}_c(z_{\mathrm{sc}(c)}), w_{n,c} \geq 0, \sum_c w_{n,c} = 1$,

相似文章

PARALLAX: 区分真实幻觉检测与基准构建伪影

arXiv cs.CL

本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。

幻觉可从量化大语言模型中间层隐藏状态线性解码

arXiv cs.LG

本文研究开源量化大语言模型的隐藏状态中是否编码了线性可分的真实性信号。在三个7B-8B指令调优模型上,对单个网络中间层的线性探针在幻觉检测基准上达到0.904-1.000 AUROC,优于基于采样的方法。

幻觉检测中的自动层选择

arXiv cs.AI

本文提出了用于大语言模型幻觉检测的自动层选择方法,并引入了固有维度首个有效峰值(FEPoID),这是一种无需训练的标准,能够一致地识别出最优中间层,优于现有启发式方法。