KG-Guard: 基于图的幻觉检测方法用于知识库问答

arXiv cs.LG 论文

摘要

KG-Guard是一个轻量级的基于图的框架,用于检测基于LLM的知识库问答中的幻觉。它将LLM视为黑盒,使用图编码器与MLP分类器来识别幻觉答案节点,在参数少得多的前提下优于基线方法。

arXiv:2606.00328v1 公告类型:新 摘要:大型语言模型(LLM)越来越多地用于知识库问答(KBQA),其回答需要从问题相关的知识图谱子图中选择实体。然而,LLM在多种任务中已知存在幻觉问题,KBQA也不例外:即使我们将图作为知识源提供,模型仍可能依赖参数化知识而非图证据,或在给定关系上进行无效推理。这种幻觉答案节点会限制KBQA系统的实际部署,尤其是在医疗等高风险领域。我们将KBQA中的幻觉检测形式化为一个答案节点分类问题,并提出一个轻量级的基于图的框架,将回答LLM视为黑盒。KG-Guard将每个KBQA实例表示为增强图。它利用KG实体的语义表示初始化节点特征,用学习向量标记主题实体和LLM提出的答案节点,并将一个虚拟问题节点连接到主题实体。然后,图编码器生成面向验证的节点表示,一个小型MLP使用图表示和问题嵌入对每个提出的答案节点进行分类。在WebQSP、ComplexWebQuestions和PUGG上的实验表明,我们的检测器在所有三个基准上取得了最高的F1分数(分别为82.0、87.4和84.3),优于LLM-as-judge和基于采样的基线方法,同时参数数量比参考方法少约305倍。除了检测,节点级别的反馈是可操作的:当被标记的答案反馈给KBQA系统进行迭代改进时,下游KBQA的F1提高了13.0–14.5个百分点,精确匹配提高了16.9–17.6个百分点。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:41

# KG-Guard:基于图的幻觉检测方法用于知识库问答

来源:https://arxiv.org/html/2606.00328

Albert Sawczyn¹,† & Piotr Bielak¹ & Tomasz Kajdanowicz¹
¹弗罗茨瓦夫科技大学人工智能系,波兰弗罗茨瓦夫
†albert\.sawczyn@pwr\.edu\.pl

###### 摘要

大型语言模型(LLMs)越来越多地用于知识库问答(KBQA),这类任务要求从针对问题的知识图子图中选择实体来回答问题。然而,LLMs在各类任务中都已知存在幻觉现象,KBQA也不例外:即使我们提供图作为知识来源,模型仍可能依赖参数化知识而非图证据,或者对给定关系进行无效推理。这种幻觉化的答案节点可能限制KBQA系统的实际部署,尤其是在医疗保健等高风险领域。我们将KBQA中的幻觉检测表述为一个答案节点分类问题,并提出一个轻量级的基于图的框架,该框架将回答LLM视为黑盒。KG-Guard将每个KBQA实例表示为一个增强图。它使用KG实体的语义表示初始化节点特征,用学习向量标记主题实体和LLM提出的答案节点,并将一个虚拟问题节点连接到主题实体。然后,图编码器生成面向验证的节点表示,一个小型MLP利用该图表示和问题嵌入对每个提出的答案节点进行分类。在WebQSP、ComplexWebQuestions和PUGG上的实验表明,我们的检测器在所有三个基准上均取得了最高的F1分数(分别为82.0、87.4和84.3),优于LLM作为评判和基于采样的基线方法,同时参数数量比参考方法少约305倍。除了检测之外,节点级别的反馈是可操作的:当被标记的答案反馈给KBQA系统进行迭代优化时,下游KBQA的F1提升了13.0-14.5个百分点,精确匹配提升了16.9-17.6个百分点。

## 1 引言

大型语言模型(LLMs)越来越多地被用作知识密集型应用中的推理组件。一个重要的场景是知识库问答(KBQA),其中模型必须从知识图中返回回答给定问题所需的实体节点(Lan等人,2023 (https://arxiv.org/html/2606.00328#bib.bib3))。早期的方法以符号方式查询整个图;大多数基于LLM的流程则检索针对问题的子图并对其进行推理。例如,对于“澳大利亚的首都是什么?”,系统应从围绕主题实体“澳大利亚”构建的子图中选择“堪培拉”。这种图结构提供了明确的 grounding 空间,其实体和关系比非结构化文档更易于整理、更新和检查。早期的KBQA系统通常依赖于以图为中心的架构,而最近的流程越来越多地使用LLM从检索到的子图中选择答案实体(Ma等人,2025 (https://arxiv.org/html/2606.00328#bib.bib4);Baek等人,2023 (https://arxiv.org/html/2606.00328#bib.bib9);He等人,2024 (https://arxiv.org/html/2606.00328#bib.bib17))。基于LLM的流程提高了语言理解能力,但也引入了幻觉(Huang等人,2025 (https://arxiv.org/html/2606.00328#bib.bib1))。在KBQA中,LLM可能依赖参数化知识而非检索到的子图,或者对图事实进行错误推理,导致错误的答案节点。据我们所知,针对基于LLM的KBQA输出的幻觉检测仍未得到充分探索:先前的工作主要关注回答KBQA问题,或关注其他QA场景中的幻觉检测。现有的检测器通常将幻觉视为文本级别的问题:它们忽略KBQA子图,不分类单个答案节点,或者需要访问通过封闭API无法获得的内部LLM信号的白盒权限。

因此,我们将KBQA中的幻觉检测视为一个图学习问题。返回的节点在检索到的子图中留下结构化信号:幻觉节点和事实节点在它们与主题实体的连接以及它们与问题相关的局部邻域上可能不同。我们提出KG-Guard,一种针对KBQA的基于图的幻觉检测器,它将回答LLM视为黑盒。给定一个问题、检索到的子图和LLM提出的答案节点,KG-Guard构建语义化的节点和问题表示,标记主题实体和答案节点,添加一个连接到主题实体的虚拟问题节点,并运行一个轻量级图编码器。每个返回节点通过一个小的MLP从其图表示和问题嵌入中进行分类。因此,KG-Guard仅使用检索到的图和LLM输出,无需内部状态或激活(Chen等人,2024 (https://arxiv.org/html/2606.00328#bib.bib28);Binkowski等人,2025 (https://arxiv.org/html/2606.00328#bib.bib15)),并且避免了基于评判(Zheng等人,2023 (https://arxiv.org/html/2606.00328#bib.bib23))或基于采样(Manakul等人,2023 (https://arxiv.org/html/2606.00328#bib.bib12))的检测器所需的额外LLM调用。其节点级别的反馈也支持迭代答案优化,遵循细粒度幻觉反馈可以改善事实性纠正的证据(Sawczyn等人,2026 (https://arxiv.org/html/2606.00328#bib.bib13))。

KBQA实例 \((q,G,T)\) -> \(f_{\\mathrm{KBQA}}\)(基于LLM的QA)-> 候选答案节点 \(\hat{A}\) -> KG-Guard \(f_{\theta}(q,G,T,\hat{a})\) -> 标记集合 \(\mathcal{H}=\{\hat{a}:\hat{y}_{\hat{a}}=1\}\) -> 接受答案集合 \(\hat{A}\) -> 验证每个 \(\hat{a} \in \hat{A}\) -> 若 \(\mathcal{H} \neq \emptyset\) 则循环(反馈)直到 \(\mathcal{H}=\emptyset\) 或达到迭代上限(参见第4.4节 (https://arxiv.org/html/2606.00328#S4.SS4))

图1:KG-Guard在KBQA循环中的作用。基于LLM的KBQA方法将 \((q,G,T)\) 映射到候选答案节点 \(\hat{A}\)。KG-Guard标记返回节点,并将标记的幻觉 \(\mathcal{H}\) 反馈给目标细化,直到 \(\mathcal{H}=\emptyset\) 或达到迭代上限(参见第4.4节 (https://arxiv.org/html/2606.00328#S4.SS4))。

我们的贡献可以总结如下:
- • 我们将KBQA幻觉检测表述为对检索到的KG子图上的答案节点分类——这是针对该问题的首个专用方法。
- • 我们提出了KG-Guard,一个轻量级的黑盒基于图的检测器,其性能优于基于LLM的基线方法,同时使用的参数数量减少了约305倍。
- • 我们展示了节点级别的反馈信号能够实现迭代答案优化(图1 (https://arxiv.org/html/2606.00328#S1.F1)),将下游KBQA的F1提升了13.0-14.5个百分点,精确匹配提升了16.9-17.6个百分点。
- • 我们在WebQSP、CWQ和PUGG上,针对LLM作为评判和基于采样的基线方法进行了评估,并通过消融实验验证了每个架构设计选择的有效性。
- •

## 2 相关工作

最近的KBQA系统越来越多地将语言模型与检索到的图证据相结合。KAPING 通过相关KG事实增强提示,用于零样本问答(Baek等人,2023 (https://arxiv.org/html/2606.00328#bib.bib9))。早期的图问答模型,如GRAFT-Net、QA-GNN和GreaseLM,研究了在针对问题的子图或联合语言-图表示上进行问题感知推理(Sun等人,2018 (https://arxiv.org/html/2606.00328#bib.bib16);Yasunaga等人,2021 (https://arxiv.org/html/2606.00328#bib.bib10);Zhang等人,2021 (https://arxiv.org/html/2606.00328#bib.bib11))。一种相关的方法G-Retriever,针对KG上的开放式问答,应用RAG通过Prize-Collecting Steiner Tree优化(PCST)构建查询相关的子图(He等人,2024 (https://arxiv.org/html/2606.00328#bib.bib17))。最近更多基于代理的方法迭代地遍历或规划KG推理路径,以生成基于事实的答案(Sun等人,2024 (https://arxiv.org/html/2606.00328#bib.bib33);Luo等人,2024 (https://arxiv.org/html/2606.00328#bib.bib34))。NN-RAG 将GNN检索到的KG推理路径提供给LLM用于答案生成(Mavromatis和Karypis,2025 (https://arxiv.org/html/2606.00328#bib.bib35))。所有这些都属于KBQA方法:它们旨在使用图证据预测答案实体。我们的目标是正交的:给定来自外部基于LLM的KBQA系统的候选答案节点,我们询问它们是否被幻觉——据我们所知,这是一个以前尚未研究过的问题。

幻觉检测在自由文本环境中已被广泛研究。黑盒基于采样的方法如SelfCheckGPT,通过采样多个生成结果来估计事实性(Manakul等人,2023 (https://arxiv.org/html/2606.00328#bib.bib12))。细粒度方法在单个事实或声明级别验证输出(Min等人,2023 (https://arxiv.org/html/2606.00328#bib.bib36);Sawczyn等人,2026 (https://arxiv.org/html/2606.00328#bib.bib13));我们的工作通过分类单个答案节点而非整个生成结果,与这一精神相契合。另一类工作利用内部模型信号,如隐藏状态(Azaria和Mitchell,2023 (https://arxiv.org/html/2606.00328#bib.bib30);Chen等人,2024 (https://arxiv.org/html/2606.00328#bib.bib28);Kossen等人,2024 (https://arxiv.org/html/2606.00328#bib.bib29);Farquhar等人,2024 (https://arxiv.org/html/2606.00328#bib.bib26))或注意力图(Chuang等人,2024 (https://arxiv.org/html/2606.00328#bib.bib31);Sriramanan等人,2024 (https://arxiv.org/html/2606.00328#bib.bib27);Binkowski等人,2025 (https://arxiv.org/html/2606.00328#bib.bib15))。虽然这些方法在通用领域有重要价值,但它们并非为KBQA设计,它们分类整个生成结果而非单个答案节点,并且忽略了可用的KG。此外,它们需要访问内部LLM状态,限制了在封闭模型上的适用性。

最近有几种方法应用KG结构进行幻觉检测。GraphEval (Sansford等人,2024 (https://arxiv.org/html/2606.00328#bib.bib14)) 从LLM输出中提取原子声明作为KG三元组,并通过NLI模型针对提供的文本上下文验证每个三元组;FactAlign (Rashad等人,2024 (https://arxiv.org/html/2606.00328#bib.bib18)) 和以知识为中心的检测 (Hu等人,2024 (https://arxiv.org/html/2606.00328#bib.bib32)) 类似地从生成的文本中提取三元组,并与文本参考对齐。GraphCheck 从声明和源文档中构建KG,然后将GNN作为软提示应用于LLM验证器 (Chen等人,2025 (https://arxiv.org/html/2606.00328#bib.bib37))。所有这些方法都需要外部文本参考,并在自由形式的生成文本上操作,而我们直接在现有的结构化KG上对答案节点进行分类。

迭代优化是纠正LLM输出的一种通用策略 (Madaan等人,2023 (https://arxiv.org/html/2606.00328#bib.bib39); Dhuliawala等人,2024 (https://arxiv.org/html/2606.00328#bib.bib40); Sawczyn等人,2026 (https://arxiv.org/html/2606.00328#bib.bib13))。KGR 使用KG中的直接三元组查找来指导修订 (Guan等人,2024 (https://arxiv.org/html/2606.00328#bib.bib38))。我们的纠正过程通过训练过的图编码器分类器识别幻觉答案节点,而不是进行三元组级别的冲突解决。

消息传递GNN通过重复聚合来自局部邻域的信息来计算节点表示,如GCN、GraphSAGE和GIN (Kipf和Welling,2017 (https://arxiv.org/html/2606.00328#bib.bib20);Hamilton等人,2017 (https://arxiv.org/html/2606.00328#bib.bib21);Xu等人,2019 (https://arxiv.org/html/2606.00328#bib.bib22))。对于我们的任务,基于注意力的图编码器特别自然,因为只有检索到的图的一部分可能是相关的。图注意力网络 (GAT) 学习邻居特定的注意力权重 (Veličković等人,2018 (https://arxiv.org/html/2606.00328#bib.bib19)),而GraphTransformer通过多头点积注意力扩展了这一点,以实现表达性的消息传递 (Shi等人,2021 (https://arxiv.org/html/2606.00328#bib.bib41))。

## 3 方法

### 3.1 问题形式化

我们考虑一个KBQA任务,其中每个示例都与一个自然语言问题和一个从知识图中提取的针对问题的子图相关联。形式上,每个实例表示为 \((q, G, T, A^*)\),其中 \(q\) 是问题,\(G = (V, E)\) 是检索到的子图。这里,\(V\) 是节点集合,每条边 \(e = (u, r, v) \in E\) 对应于从节点 \(u\) 到节点 \(v\) 的有向KG三元组,关系标签为 \(r \in \mathcal{R}\),其中 \(\mathcal{R}\) 表示关系标签集合。我们将这些关系视为边属性,而不是固定的异构图模式,这允许关系标签从其文本中编码。集合 \(T \subseteq V\) 包含主题实体,即问题中提及的节点,而 \(A^* \subseteq V\) 包含正确答案节点。给定 \((q, G, T)\),应用基于LLM的KBQA方法 \(f_{\mathrm{KBQA}}\) 来回答问题:\(\hat{A} = f_{\mathrm{KBQA}}(q, G, T), \quad \hat{A} \subseteq V\)。如果该方法以特殊的 *unknown* 响应弃权,我们设置 \(\hat{A} = \emptyset\)。在本工作中,我们仅考虑该方法至少返回一个节点的示例,即 \(\hat{A} \neq \emptyset\)。这一限制与我们的检测器目标一致,即验证具体的答案节点,而非弃权情况。

然后,幻觉检测任务被形式化为对单个返回节点的二元分类问题。如果LLM对单个问题返回多个节点,我们将该输出分解为单独的检测实例,每个预测节点一个。因此,对于每个保留的KBQA示例 \((q, G, T, A^*, \hat{A})\) 和每个 \(\hat{a} \in \hat{A}\),我们创建一个分类实例 \((q, G, T, A^*, \hat{a})\),并定义目标标签 \(y \in \{0, 1\}\) 为:

\[
y = \begin{cases}
0, & \text{如果 } \hat{a} \in A^*, \\
1, & \text{否则},
\end{cases}
\]

其中 \(y=1\) 表示幻觉答案节点,\(y=0\) 表示事实节点。这一定义自然处理了具有多个正确答案的问题:如果返回节点匹配任何正确答案,则被视为事实节点,否则为幻觉节点。因此,一个KBQA示例可能产生多个幻觉检测实例,对应于LLM提出的不同节点。然而,在部署的系统中,检测器可以一次处理图(单次前向传播)并标记哪些返回节点是幻觉的。我们的目标是学习一个检测器 \(f_\theta(q, G, T, \hat{a}) \rightarrow \{0, 1\}\),预测由 \(f_{\mathrm{KBQA}}\) 选择的单个节点是事实的还是幻觉的。

### 3.2 KG-Guard(幻觉检测器)

增强图 \(\widetilde{G}\)
虚拟问题节点 \(v_q\)
节点特征 \(x_v = [\phi(t_v) \| M_T[\tau_v] \| M_A[\alpha_v]]\)
\(v_q\): 虚拟问题节点
青色:主题实体
橙色:LLM返回节点

图编码器 \(g_\theta(\cdot)\)
答案节点嵌入 \(h_{\hat{a}}\)

问题 \(q\)
文本编码器 \(\phi(\cdot)\)
问题嵌入 \(z_q\)

\([h_{\hat{a}} \| z_q]\)
MLP \(\psi(\cdot)\)
幻觉 (\(y=1\)) 或事实 (\(y=0\))

图2:用于标记LLM返回节点的KG-Guard架构。节点特征结合了语义节点表示、主题实体标记 \(M_T\) 和答案节点标记 \(M_A\)。一个虚拟问题节点 \(v_q\) 通过有向边连接到主题实体。图编码器 \(g_\theta\) 计算答案节点表示 \(h_{\hat{a}}\),这些表示

相似文章

PARALLAX: 区分真实幻觉检测与基准构建伪影

arXiv cs.CL

本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。

HalluScore:大语言模型幻觉问答基准

arXiv cs.CL

介绍HalluScore,一个结构化的阿拉伯语问答基准,用于评估大语言模型在不同推理难度、知识领域和文化背景下的幻觉。包含827个带有验证证据和注释的问题,已在17个大语言模型上测试。

理解LLM中新知识诱导的事实幻觉:分析与解释

arXiv cs.CL

本论文探究了在新知识上微调LLM如何诱导事实幻觉,研究表明特定知识类型内的陌生性通过削弱对关键实体的注意力来驱动幻觉。作者提议通过在后期训练阶段重新引入已知知识来缓解这一问题。