检索增强生成中的证据图一致性:一种模型依赖的幻觉检测分析
摘要
提出证据图一致性(EGC)框架,利用基于图的结构一致性进行RAG中的幻觉检测,揭示了不同模型家族间有效性的差异。
arXiv:2606.06748v1 公告类型:新
摘要:检索增强生成(RAG)可以减少但无法消除大型语言模型中的幻觉。现有检测方法依赖于生成答案与检索段落之间的平面相似性,忽略了证据片段与答案声明之间的结构关系。我们提出了证据图一致性(EGC)框架,为每个响应构建局部证据图,并计算五种结构一致性度量作为幻觉指标。在RAGTruth的完整问答子集上对六个LLM(5,767个响应)进行评估,EGC揭示了一致的模型家族分割:图一致性特征在Llama-2模型中显示出预期的幻觉诊断方向,但在GPT-4、GPT-3.5和Mistral-7B中表现出系统性反转。这种反转表明不同模型家族之间存在定性的不同幻觉模式,并指出基于嵌入的图一致性不能作为模型无关的幻觉检测信号。
查看缓存全文
缓存时间: 2026/06/08 09:20
# 检索增强生成中的证据图一致性:一种依赖于模型的幻觉检测分析
来源:https://arxiv.org/html/2606.06748
###### 摘要
检索增强生成(Retrieval-Augmented Generation, RAG)可以减少但无法消除大语言模型中的幻觉。现有检测方法依赖于生成答案与检索段落之间的扁平相似度,忽略了证据片段和答案声明之间的结构关系。我们提出证据图一致性(Evidence Graph Consistency, EGC),一个为每个响应构建局部证据图并计算五种结构一致性度量作为幻觉指标的框架。在 RAGTruth 完整问答分割上对六个大语言模型(5,767 个响应)进行的评估显示,存在一致的模型族分裂:图一致性特征在 Llama-2 模型中显示出预期的诊断方向,但在 GPT-4、GPT-3.5 和 Mistral-7B 中表现出系统性逆转。这种逆转表明不同模型族存在性质不同的幻觉模式,并说明基于嵌入的图一致性不能作为独立于模型的幻觉检测信号。
## I. 引言
检索增强生成(RAG)已成为将大语言模型(LLM)输出锚定于外部知识的标准技术[1 (https://arxiv.org/html/2606.06748#bib.bib1),18 (https://arxiv.org/html/2606.06748#bib.bib18)]。通过基于检索段落进行生成,RAG 相比仅依赖参数生成,减少了事实性无支撑输出的频率[16 (https://arxiv.org/html/2606.06748#bib.bib16)]。然而,RAG 并不能消除幻觉:大语言模型仍然会生成与检索证据相矛盾或超出其范围的内容[2 (https://arxiv.org/html/2606.06748#bib.bib2),11 (https://arxiv.org/html/2606.06748#bib.bib11),22 (https://arxiv.org/html/2606.06748#bib.bib22)]。
现有的 RAG 环境下幻觉检测方法主要依赖于生成答案与检索上下文之间的扁平相似度[3 (https://arxiv.org/html/2606.06748#bib.bib3)],或通过提示另一个 LLM 来判断忠实性[4 (https://arxiv.org/html/2606.06748#bib.bib4)]。这两种方法都将答案与证据之间的关系视为单个标量信号,忽略了各个证据段落与答案声明之间的结构关系。
我们提出证据图一致性(EGC),一个轻量级框架,构建一个包含问题、检索段落和答案声明的局部图,然后计算结构一致性特征作为幻觉指标。将 EGC 应用于六个大语言模型的 RAGTruth[2 (https://arxiv.org/html/2606.06748#bib.bib2)]完整问答分割,我们发现其有效性依赖于模型:EGC 在 Llama-2 模型中显示出预期的诊断方向,但在 GPT-4、GPT-3.5 和 Mistral-7B 中表现出系统性逆转,表明不同模型族存在性质不同的幻觉模式。
本文的贡献如下:我们使用 EGC 作为一种结构性探测工具,研究在哪些情况下基于图的同质性可以作为有效的幻觉信号,而不是提出一个竞争性的检测器;我们对六个大语言模型的 5,767 个 RAG 响应进行了系统性评估,揭示了一个一致的模型族分裂,这对幻觉检测系统的设计具有启示意义;我们分析了这种分裂背后的结构模式,并证明仅依靠基于嵌入的图同质性不能作为独立于模型的可靠幻觉信号。
## II. 相关工作
**RAG 中的幻觉检测。** RAGAs[3 (https://arxiv.org/html/2606.06748#bib.bib3)] 将生成的答案分解为原子声明,并使用 LLM 评判器检查每个声明是否与检索到的上下文一致,计算支持声明的比例作为忠实性分数。ARES[25 (https://arxiv.org/html/2606.06748#bib.bib25)] 扩展了这一范式,通过训练轻量级分类器来评估 RAG 系统,而无需人工标注。FActScore[4 (https://arxiv.org/html/2606.06748#bib.bib4)] 将类似的分解策略应用于长文本生成,通过检索语料库验证声明。SelfCheckGPT[5 (https://arxiv.org/html/2606.06748#bib.bib5)] 通过采样多个响应并测量自一致性来检测幻觉,无需外部证据。LRP4RAG[21 (https://arxiv.org/html/2606.06748#bib.bib21)] 通过模型内部状态的逐层相关性传播来检测幻觉,提供了一种无需外部标注的可解释信号。RAG-HAT[27 (https://arxiv.org/html/2606.06748#bib.bib27)] 采用互补方法,通过使用幻觉感知偏好数据对 LLM 进行微调,在生成阶段减少幻觉。与这些方法不同,EGC 基于从嵌入相似性导出的图拓扑结构运行,而不是 LLM 生成的判断或随机采样,因此计算轻量且模型无关。
**NLP 中的图方法。** 图结构已被用于多跳问答[6 (https://arxiv.org/html/2606.06748#bib.bib6),20 (https://arxiv.org/html/2606.06748#bib.bib20)]、知识基础对话[12 (https://arxiv.org/html/2606.06748#bib.bib12)]和文档摘要[13 (https://arxiv.org/html/2606.06748#bib.bib13),26 (https://arxiv.org/html/2606.06748#bib.bib26)]。这些方法通常依赖于预先构建的大型知识图谱。EGC 则在推理时为每个响应构建轻量级局部图,无需外部图基础设施或预处理。
**RAGTruth 语料库。** RAGTruth[2 (https://arxiv.org/html/2606.06748#bib.bib2)] 提供了六个大语言模型在问答、数据到文本和摘要任务中生成的 17,790 个自然响应,并附带人工标注的词级幻觉注释。它是一个大规模 RAG 幻觉语料库,包含跨多个模型族的跨度级注释[31 (https://arxiv.org/html/2606.06748#bib.bib31)],非常适合我们进行的跨模型分析。
**模型依赖的评估。** 先前工作已注意到不同模型族的幻觉率存在显著差异[2 (https://arxiv.org/html/2606.06748#bib.bib2),11 (https://arxiv.org/html/2606.06748#bib.bib11),22 (https://arxiv.org/html/2606.06748#bib.bib22),28 (https://arxiv.org/html/2606.06748#bib.bib28),29 (https://arxiv.org/html/2606.06748#bib.bib29),30 (https://arxiv.org/html/2606.06748#bib.bib30)],但检测方法有效性的下游影响尚未被系统性研究。我们的结果表明这种变化是定性的:EGC 度量的诊断方向在评估的模型族中不同。与旨在最大化检测准确性的先前工作不同,本文使用 EGC 作为诊断透镜,研究结构一致性在哪些情况下是有效的幻觉信号,在哪些情况下不是。
## III. 方法
我们提出证据图一致性(EGC),一个轻量级框架,为每个 RAG 响应构建局部证据图,并导出结构化一致性特征作为幻觉指标。
### III-A 图构建
给定一个问题 \( q \),一组检索段落 \( \mathcal{P} = \{ p_1, \ldots, p_k \} \),以及一个生成的答案 \( a \),我们构建一个无向图 \( G = (V, \mathcal{E}) \),包含三种节点类型。
**节点。** 一个单一的问题节点 \( v_q \) 表示输入问题。每个段落 \( p_i \) 成为证据节点 \( v_{e_i} \)。答案 \( a \) 使用 spaCy[8 (https://arxiv.org/html/2606.06748#bib.bib8)] 分割为句子,每个长度超过十个词符的句子成为一个声明节点 \( v_{c_j} \)。所有节点使用 all-MiniLM-L6-v2[7 (https://arxiv.org/html/2606.06748#bib.bib7),19 (https://arxiv.org/html/2606.06748#bib.bib19)] 进行编码。贯穿全文,\( \mathcal{E} \) 表示 \( G \) 的边集,而 \( V_E \) 和 \( V_C \) 分别表示证据节点和声明节点的集合。
**边。** 我们基于余弦相似度 \( \text{sim}(\cdot, \cdot) \) 定义三种边类型,阈值 \( \tau = 0.4 \):
选择余弦相似度是因为所有节点都由 all-MiniLM-L6-v2 编码为固定维度的稠密向量;因此任意两个节点之间的相似度独立于原始文本长度,定义为 \( \text{sim}(\mathbf{u}, \mathbf{v}) = \frac{\mathbf{u} \cdot \mathbf{v}}{\|\mathbf{u}\| \|\mathbf{v}\|} \),其中 \( \mathbf{u}, \mathbf{v} \in \mathbb{R}^{384} \) 是相应的嵌入[24 (https://arxiv.org/html/2606.06748#bib.bib24)]。
* `Q–E` 边:连接 \( v_q \) 与 \( v_{e_i} \),如果 \( \text{sim}(v_q, v_{e_i}) \geq \tau \)
* `E–C` 边:连接 \( v_{e_i} \) 与 \( v_{c_j} \),如果 \( \text{sim}(v_{e_i}, v_{c_j}) \geq \tau \)
* `E–E` 边:连接 \( v_{e_i} \) 与 \( v_{e_l} \),如果 \( \text{sim}(v_{e_i}, v_{e_l}) \geq \tau \) 且 \( i \neq l \)
图 1 (https://arxiv.org/html/2606.06748#S3.F1) 展示了一个有依据答案和一个幻觉答案的图结构。
参见说明
图 1: 来自 Llama-2-13B 的有依据答案(左)和幻觉答案(右)的证据图结构。在有依据的情况下,所有声明节点都与证据相连;在幻觉情况下,声明节点完全孤立。
### III-B 一致性特征
我们从 \( G \) 计算五个标量度量,其中 \( d(v) \) 表示节点 \( v \) 的度数。
**覆盖率** 衡量至少被一个证据节点支持的声明的比例:
\[
\text{cov} = \frac{|\{ v_c \in V_C : \exists v_e \in V_E, (v_c, v_e) \in \mathcal{E} \}|}{|V_C|}
\tag{1}
\]
**支持密度** 衡量每个声明对应的平均证据节点数,按证据节点总数归一化:
\[
\text{sup} = \frac{1}{|V_C|} \sum_{v_c \in V_C} \frac{|\{ v_e \in V_E : (v_c, v_e) \in \mathcal{E} \}|}{|V_E|}
\tag{2}
\]
**跨证据一致性** 是所有 E–E 边的平均权重,捕捉检索段落之间是否相互一致:
\[
\text{agr} = \frac{\sum_{(v_e, v_e') \in \mathcal{E}_{\text{EE}}} \text{sim}(v_e, v_e')}{|\mathcal{E}_{\text{EE}}|}
\tag{3}
\]
其中 \( \mathcal{E}_{\text{EE}} \) 是 E–E 边的集合。如果没有 E–E 边,则 \( \text{agr} = 0 \)。
**连通性** 衡量在 \( G \) 中从问题节点通过任意路径可达的声明节点的比例:
\[
\text{conn} = \frac{|\{ v_c \in V_C : v_q \leadsto v_c \text{ in } G \}|}{|V_C|}
\tag{4}
\]
**孤立惩罚** 是没有边的声明节点的比例,表示完全不被检索证据支持的声明:
\[
\text{iso} = \frac{|\{ v_c \in V_C : d(v_c) = 0 \}|}{|V_C|}
\tag{5}
\]
由于声明节点只与证据节点相连,孤立惩罚是覆盖率的补集,即 \( \mathrm{iso} = 1 - \mathrm{cov} \)。我们保留这两个量,因为它们提供互补的解释:覆盖率强调被支持的声明,而孤立性直接突出不被支持的声明。它们不是独立的结构信号。
**算法 1** EGC 图构建
**输入:** 问题 \( q \),段落 \( \mathcal{P} = \{p_1, \ldots, p_k\} \),答案 \( a \),相似度阈值 \( \tau \)
**输出:** 证据图 \( G = (V, \mathcal{E}) \)
1: 使用 all-MiniLM-L6-v2 对 \( q \)、每个 \( p_i \in \mathcal{P} \) 以及 \( a \) 的每个句子 \( c_j \) 进行编码,得到嵌入 \( \mathbf{e}_q \)、\( \{\mathbf{e}_{p_i}\} \)、\( \{\mathbf{e}_{c_j}\} \)
2: \( V \leftarrow \{v_q\} \cup \{v_{e_i}\} \cup \{v_{c_j}\} \)
3: \( \mathcal{E} \leftarrow \emptyset \)
4: **对于每个** \( v_{e_i} \in V_E \) **执行**
5: **如果** \( \text{sim}(\mathbf{e}_q, \mathbf{e}_{p_i}) \geq \tau \) **则**
6: \( \mathcal{E} \leftarrow \mathcal{E} \cup \{(v_q, v_{e_i})\} \)
7: **结束如果**
8: **结束循环**
9: **对于每个** \( v_{e_i} \in V_E \),每个 \( v_{c_j} \in V_C \) **执行**
10: **如果** \( \text{sim}(\mathbf{e}_{p_i}, \mathbf{e}_{c_j}) \geq \tau \) **则**
11: \( \mathcal{E} \leftarrow \mathcal{E} \cup \{(v_{e_i}, v_{c_j})\} \)
12: **结束如果**
13: **结束循环**
14: **对于每对** \( v_{e_i}, v_{e_l} \in V_E \),\( i \neq l \) **执行**
15: **如果** \( \text{sim}(\mathbf{e}_{p_i}, \mathbf{e}_{p_l}) \geq \tau \) **则**
16: \( \mathcal{E} \leftarrow \mathcal{E} \cup \{(v_{e_i}, v_{e_l})\} \)
17: **结束如果**
18: **结束循环**
19: **返回** \( G = (V, \mathcal{E}) \)
**算法 2** EGC 特征计算
**输入:** 证据图 \( G = (V, \mathcal{E}) \),节点集合 \( V_E \)、\( V_C \),问题节点 \( v_q \)
**输出:** 特征向量 \( \mathbf{f} = [\text{cov}, \text{sup}, \text{agr}, \text{conn}, \text{iso}] \)
1: \( n_c \leftarrow |V_C| \)
2: \( \text{cov} \leftarrow \frac{1}{n_c} \sum_{v_c \in V_C} \mathbf{1}[\exists v_e \in V_E : (v_c, v_e) \in \mathcal{E}] \)
3: \( \text{sup} \leftarrow \frac{1}{n_c \cdot |V_E|} \sum_{v_c \in V_C} |\{ v_e \in V_E : (v_c, v_e) \in \mathcal{E} \}| \)
4: \( \mathcal{E}_{\text{EE}} \leftarrow \{(v_e, v_e') \in \mathcal{E} : v_e, v_e' \in V_E\} \)
5: **如果** \( |\mathcal{E}_{\text{EE}}| > 0 \) **则**
6: \( \text{agr} \leftarrow \frac{1}{|\mathcal{E}_{\text{EE}}|} \sum_{(v_e, v_e') \in \mathcal{E}_{\text{EE}}} \text{sim}(\mathbf{e}_{v_e}, \mathbf{e}_{v_e'}) \)
7: **否则**
8: \( \text{agr} \leftarrow 0 \)
9: **结束如果**
10: \( \text{conn} \leftarrow \frac{1}{n_c} \sum_{v_c \in V_C} \mathbf{1}[v_q \leadsto v_c \text{ in } G] \)
11: \( \text{iso} \leftarrow \frac{1}{n_c} \sum_{v_c \in V_C} \mathbf{1}[d(v_c) = 0] \)
12: **返回** \( \mathbf{f} = [\text{cov}, \text{sup}, \text{agr}, \text{conn}, \text{iso}] \)
### III-C 幻觉诊断
五个度量 \( \mathbf{f} = [\text{cov}, \text{sup}, \text{agr}, \text{conn}, \text{iso}] \) 被标准化后输入到逻辑回归分类器[14 (https://arxiv.org/html/2606.06748#bib.bib14),23 (https://arxiv.org/html/2606.06748#bib.bib23)],并使用平衡类权重。我们使用 RAGTruth[2 (https://arxiv.org/html/2606.06748#bib.bib2)] 的官方训练和测试分割,报告 AUROC、F1 以及每个模型的 EGC 诊断差距:
\[
\Delta_m = \overline{\text{EGC}}_{\text{grounded}}^{(m)} - \overline{\text{EGC}}_{\text{hallucinated}}^{(m)}
\tag{6}
\]
其中 \( \overline{\text{EGC}}^{(m)} \) 是模型 \( m \) 的平均 EGC 分数,而复合 EGC 分数定义为相似文章
为什么检索增强生成会失败:图视角
本文探讨了检索增强生成(RAG)系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图,作者发现正确的预测展现出更深的推理路径和更分散的证据流,而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施,以提高RAG的可靠性。
RAGognizer:通过检测头集成实现幻觉感知微调
RAGognizer 提出了一种幻觉感知微调方法,该方法将轻量级检测头集成到大语言模型(LLMs)中,以实现语言建模与幻觉检测的联合优化,适用于 RAG 系统。论文介绍了 RAGognize,一个包含自然发生的闭域幻觉及其词元级标注的数据集,并展示了在降低幻觉率的同时,实现了最先进的幻觉检测性能,且不损害语言质量。
TIGER:基于图证据路由的可追溯推理,用于减轻多模态生成中的幻觉
TIGER是一个推理时框架,通过提取观察图和声明图并分配风险评分来修复不支持的事实,从而减轻多模态生成中的幻觉。它在图像到文本、图像+文本到文本、音频到文本和视频到文本任务中减少了不支持的内容。
幻觉即利用:携带证据的多模态智能体
本文形式化了多模态智能体中的幻觉到动作转换,并提出了携带证据的智能体(ECA),它使用受限验证器仅授权安全的工具调用,在200个任务的流水线上实现了0%的不安全动作率。
ExpGraph:面向LLM智能体的模型无关经验学习与图结构记忆
ExpGraph是一个模型无关的框架,通过自进化的技能与失败经验图,使LLM智能体能够复用过往经验,在不重新训练执行器的情况下将任务性能提升12%-21%。