ConflictRAG:检测并解决检索增强生成中的知识冲突
摘要
ConflictRAG是一种冲突感知的RAG框架,能够在检索文档中检测、分类并解决知识冲突,在基线方法上实现了88.7%的检测F1值和5.3–6.1%的正确率提升,同时将API成本降低了62%。
arXiv:2605.17301v1 公告类型:新
摘要:检索增强生成(RAG)系统隐式假设检索文档之间具有相互一致性——这一假设在实践中经常失效。我们提出了ConflictRAG,一种冲突感知的RAG框架,能够在答案生成之前检测、分类并解决知识冲突。该框架引入了三项贡献:(1)一个两阶段冲突检测模块,结合了轻量级基于嵌入的MLP分类器与选择性LLM优化,将API成本降低62%,同时保持90.8%的检测准确率;(2)一个Entropy-TOPSIS框架,用于数据驱动的来源可信度评估,相较于手动启发式方法将选择准确率提高了7.1%;以及(3)一个冲突感知RAG评分(CARS),用于诊断性地评估冲突处理能力。在三个基准测试上与六种基线方法进行的实验表明,冲突检测F1值达到88.7%,比最强的冲突感知基线方法一致地提高了5.3%–6.1%的正确率,且该流程能够有效地跨骨干LLM迁移。
查看缓存全文
缓存时间: 2026/05/19 06:39
# ConflictRAG:检测并解决检索增强生成中的知识冲突
来源:https://arxiv.org/html/2605.17301
###### 摘要
检索增强生成(RAG)系统隐含地假设检索到的文档之间相互一致——然而这一假设在实践中经常失效。我们提出了 **ConflictRAG**,一个能在答案生成之前检测、分类并解决知识冲突的冲突感知 RAG 框架。该框架包含三项贡献:(1) 一个**两阶段冲突检测模块**,结合了轻量级基于嵌入的 MLP 分类器与选择性 LLM 精炼,在保持 90.8% 检测准确率的同时将 API 成本降低了 62%;(2) 一个用于数据驱动来源可信度评估的 **Entropy-TOPSIS** 框架,相较于手动启发式方法将选择准确率提升了 7.1%;(3) 一个用于冲突处理能力诊断评估的 **冲突感知 RAG 分数(CARS)**。在三个基准测试上与六种基线方法的实验表明,冲突检测 F1 分数达到 88.7%,对比最强的冲突感知基线有持续 5.3–6.1% 的正确率提升,且该流水线能够有效迁移至不同的骨干大语言模型。
## I. 引言
检索增强生成(RAG)[13](https://arxiv.org/html/2605.17301#bib.bib1) 已成为将大型语言模型(LLM)输出锚定于外部知识的主流范式,从而减少幻觉并支持知识密集型任务 [6](https://arxiv.org/html/2605.17301#bib.bib9), [3](https://arxiv.org/html/2605.17301#bib.bib13)。
尽管取得了成功,一个根本但尚未充分探索的挑战依然存在:检索到的文档可能包含**相互矛盾**的信息。例如,一个关于推荐维生素 D 摄入量的查询可能同时检索到 400 IU(2010 年指南)和 600–800 IU(2020 年指南)。传统系统会将所有文档拼接起来,可能在不标记冲突的情况下生成不一致的回复。
RAG 系统中的知识冲突源于两个方面 [23](https://arxiv.org/html/2605.17301#bib.bib5), [22](https://arxiv.org/html/2605.17301#bib.bib4):
- **文档间冲突**:检索到的段落彼此矛盾(子类型:事实性、时间性、观点性;参见第 III-C 节 (https://arxiv.org/html/2605.17301#S3.SS3))。
- **参数-上下文冲突**:检索到的证据与 LLM 的内部知识相矛盾。
最近的综述 [23](https://arxiv.org/html/2605.17301#bib.bib5) 将此类冲突识别为关键可靠性问题,然而现有方法——包括 Self-RAG [1](https://arxiv.org/html/2605.17301#bib.bib2) 和 CRAG [24](https://arxiv.org/html/2605.17301#bib.bib3)——主要针对检索相关性,并未明确检测或解决矛盾。
为填补这一空白,我们提出了 **ConflictRAG**,一个通过系统化的检测-分类-解决-生成流水线来解决知识冲突的冲突感知 RAG 框架。我们的贡献包括:
1. 1. **两阶段冲突检测**:基于嵌入的 MLP 分类器(第一阶段)结合选择性 LLM 精炼(第二阶段),在 90.8% 准确率下将成本降低 62%。
2. 2. 用于来源可信度的 **Entropy-TOPSIS** 框架,性能比手工启发式方法好 7.1%。
3. 3. 一个**冲突感知 RAG 分数(CARS)**,整合了正确性、检测、解决和来源保真度。
4. 4. 在三个基准测试上与六种基线方法的实验,包括消融和效率分析。
ConflictRAG 的整体流水线如图 1 (https://arxiv.org/html/2605.17301#S1.F1) 所示。
参见说明图 1:ConflictRAG 流水线概览:混合检索 → 两阶段冲突检测 → 类型自适应解决 → 带来源归因的冲突感知生成。
## II. 相关工作
**RAG 与知识冲突**。RAG [13](https://arxiv.org/html/2605.17301#bib.bib1) 通过外部知识增强 LLM。Self-RAG [1](https://arxiv.org/html/2605.17301#bib.bib2) 和 CRAG [24](https://arxiv.org/html/2605.17301#bib.bib3) 等扩展改进了检索质量,但假设文档一致。Xu 等人 [23](https://arxiv.org/html/2605.17301#bib.bib5) 将冲突分为上下文间冲突和上下文-记忆冲突,而 ConflictQA [22](https://arxiv.org/html/2605.17301#bib.bib4) 表明 LLM 会遵循上下文而不考虑其正确性。进一步的研究涉及参数-上下文张力 [11](https://arxiv.org/html/2605.17301#bib.bib23)、冲突的搜索结果 [2](https://arxiv.org/html/2605.17301#bib.bib25)、实体级冲突 [15](https://arxiv.org/html/2605.17301#bib.bib15) 和信任校准 [16](https://arxiv.org/html/2605.17301#bib.bib6), [21](https://arxiv.org/html/2605.17301#bib.bib14)。然而,没有工作提供一个统一的检测-解决流水线。
**冲突感知 RAG**。近期工作通过知识图谱 [14](https://arxiv.org/html/2605.17301#bib.bib27), [26](https://arxiv.org/html/2605.17301#bib.bib28)、事实核查 [7](https://arxiv.org/html/2605.17301#bib.bib24)、透明处理 [25](https://arxiv.org/html/2605.17301#bib.bib26) 和多智能体辩论 [20](https://arxiv.org/html/2605.17301#bib.bib31) 来解决 RAG 冲突。这些方法要么只关注单一冲突类型,要么推理成本高昂。ConflictRAG 将学习到的两阶段检测器与类型自适应解决以及一个诊断指标相结合——据我们所知,这是第一个集成所有三者的系统。幻觉缓解 [10](https://arxiv.org/html/2605.17301#bib.bib10) 和 RAGAS [5](https://arxiv.org/html/2605.17301#bib.bib20) 提高了质量,但并未针对文档间矛盾。
## III. 方法论
### III-A 问题形式化
给定用户查询 \(q\),检索器 \(\mathcal{R}\) 返回 \(K\) 个文档 \(\mathcal{D} = \{d_1, d_2, \ldots, d_K\}\)。标准 RAG 系统生成 \(a = \text{LLM}(q, \mathcal{D})\)。我们将其扩展为冲突感知流水线:
\[
a = \text{Generate}\big(q, \mathcal{D}, \text{Resolve}(q, \mathcal{D}, \text{Detect}(q, \mathcal{D}))\big),
\tag{1}
\]
其中 \(\text{Detect}(\cdot)\) 识别冲突文档对及其冲突类型,\(\text{Resolve}(\cdot)\) 应用类型自适应策略,\(\text{Generate}(\cdot)\) 生成带有注释的冲突感知答案。
### III-B 两阶段冲突检测
当 \(K=5\) 个检索文档时,每个查询有 \(\binom{5}{2}=10\) 个文档对。为每一对调用 LLM 成本过高。我们提出一个两阶段架构(图 2 (https://arxiv.org/html/2605.17301#S3.F2)),显著降低了这一成本。
参见说明图 2:两阶段冲突检测。第一阶段(MLP)以 120ms 处理 73% 的文档对;不确定的情况(\(\textit{conf} < \tau_c\))进入第二阶段(LLM)。综合结果:90.8% 准确率,62% 成本降低。
**第一阶段:基于嵌入的 MLP 分类器**。对于每一对 \((d_i, d_j)\) 和查询 \(q\),我们通过句子转换器(all-MiniLM-L6-v2, 384 维)进行编码,其中 \(\oplus\) 表示拼接:
\[
\mathbf{e}_i = \text{SentEnc}(q \oplus d_i), \quad \mathbf{e}_j = \text{SentEnc}(q \oplus d_j).
\tag{2}
\]
特征向量结合了四个交互分量 [4](https://arxiv.org/html/2605.17301#bib.bib22):
\[
\mathbf{f}_{ij} = [\mathbf{e}_i;\ \mathbf{e}_j;\ |\mathbf{e}_i - \mathbf{e}_j|;\ \mathbf{e}_i \odot \mathbf{e}_j] \in \mathbb{R}^{1536}.
\tag{3}
\]
该向量被输入两个共享相同特征表示的并行 MLP;我们使用冻结的编码器和 MLP 头(而非微调的交叉编码器),以实现仅 CPU 的部署。
**头 1** 执行二元冲突检测(1536→256→128→2, ReLU);**头 2** 将其分为四类——无冲突、事实性、时间性或观点性(1536→256→128→64→4, ReLU)。分类器在 3,000 个文档对(2,400 训练, 600 验证)上训练,这些数据通过重新配对 ConflictQA 中支持同一查询相反答案的检索段落而得到,从而将参数-上下文标签转换为成对文档间注释。在验证集上应用早停。
**第二阶段:基于 LLM 的精炼**。当头 1 的二元检测置信度满足 \(\textit{conf}_{ij} < \tau_c = 0.7\) 时,该对通过结构化提示路由至 LLM 进行精确冲突判断和类型分类。这将对 LLM 的昂贵调用保留给真正模糊的情况。
**参数-上下文冲突检测**。与上述成对文档间检测器正交,我们通过将闭书答案 \(a_{\text{par}} = \text{LLM}(q)\) 与开书答案 \(a_{\text{ctx}} = \text{LLM}(q, \mathcal{D})\) 进行结构化比较提示来检测参数-上下文冲突。当两个答案不一致时,系统优先选择检索到的证据。该方法在一个 100 样本子集上达到 81% 的准确率(精确率 84%, 召回率 77%)。
### III-C 类型自适应冲突解决
我们定义三种文档间冲突类型——**事实性**(矛盾的主张)、**时间性**(不同时间段)和**观点性**(主观视角)——每种都需要不同的解决策略。
**事实性冲突:Entropy-TOPSIS**。我们将来源选择形式化为一个多准则决策问题(MCDM)[8](https://arxiv.org/html/2605.17301#bib.bib21)。五个 LLM 提取的准则(\(n=5\):权威性、时效性、相关性、特异性、一致性)生成 \(\mathbf{X} \in \mathbb{R}^{m \times n}\)(分数 \(\in [0,1]\));注意,“一致性”可能偏向于不正确的大多数——第 V-E 节 (https://arxiv.org/html/2605.17301#S5.SS5) 的消融实验证实它仅贡献 2.1% 的准确率。权重通过熵从 LLM 提取的分数中导出。设 \(p_{ij} = x_{ij} / \sum_{i=1}^m x_{ij}\):
\[
E_j = -\frac{1}{\ln m} \sum_{i=1}^m p_{ij} \ln p_{ij}, \quad w_j = \frac{1 - E_j}{\sum_{k=1}^n (1 - E_k)},
\tag{4}
\]
其中较高的 \(E_j\) 表示较弱的区分能力(较低的权重)。文档根据接近度 \(C_i^* = D_i^- / (D_i^+ + D_i^-)\) 排序,其中 \(D_i^\pm\) 是到理想/反理想解的距离。
对于 **时间性冲突**,文档根据时效性排序(元数据或 LLM 提取的日期);生成器优先使用最新来源,同时注明时间演变。对于 **观点性冲突**,多视角综合呈现所有观点并附来源归因。
### III-D 冲突感知答案生成
解决后的上下文 \(r\) 和检测到的冲突 \(\mathcal{C}\) 被传递给 GPT-4o-mini,使用冲突感知提示。输出包括:(i) 基于最可靠来源的回应;(ii) 冲突注释;(iii) 来源归因;(iv) 置信度限定。如果没有检测到冲突,系统退化为标准生成。
### III-E 冲突感知 RAG 分数(CARS)
现有的 RAG 指标(EM、F1、RAGAS [5](https://arxiv.org/html/2605.17301#bib.bib20))忽略了冲突处理。我们提出 CARS 作为一个**诊断**指标,在结构上偏好包含显式冲突模块的系统:
\[
\text{CARS} = w_a \cdot \text{AC} + w_d \cdot \text{CDA} + w_r \cdot \text{RA} + w_s \cdot \text{SF},
\tag{5}
\]
其中 AC 是答案正确性,CDA 是冲突检测 F1,RA 是解决适当性(LLM 评分),SF 是来源保真度,且 \((w_a, w_d, w_r, w_s) = (0.35, 0.25, 0.25, 0.15)\)。AC 仍是主要指标;CARS 仅用于诊断。在我们的实验中,将权重在默认值周围变化 \(\pm 0.1\) 不会改变系统排名。
## IV. 实验设置
### IV-A 数据集
我们在三个基准测试上进行评估(100% 的 ConflictQA、75% 的 NQ-Conflict 和约 68% 的 AmbigQA 查询包含 \(\ge 1\) 个检测到的冲突):
- **ConflictQA**[22](https://arxiv.org/html/2605.17301#bib.bib4):2,000 个问答对,其中参数知识与反证据冲突。
- **NQ-Conflict**:从 Natural Questions [12](https://arxiv.org/html/2605.17301#bib.bib8) 构建,通过提示 GPT-4o 注入受控冲突。包含 500 个样本(150 事实性、125 时间性、100 观点性、125 无冲突);100 样本人工验证(\(\kappa = 0.83\))确认 91% 的注入准确率。作为自建基准,NQ-Conflict 具有分布偏差和注入伪影的固有风险;因此,我们将其指定为补充性受控测试平台,主要结论来自自然发生的基准测试(ConflictQA、AmbigQA)。
- **AmbigQA**[17](https://arxiv.org/html/2605.17301#bib.bib7):1,000 个模糊问题,文档自然呈现不同视角。
### IV-B 基线方法
我们比较六种方法,它们共享相同的检索池、元数据和生成模型(GPT-4o-mini)。
- **Standard RAG**:拼接前 \(K\) 个文档。
- **RAG + Reranking**:从单个排名最高的段落生成(通过设计避免了冲突)。
- **Self-RAG**[1](https://arxiv.org/html/2605.17301#bib.bib2):添加自我反思令牌。
- **CRAG**[24](https://arxiv.org/html/2605.17301#bib.bib3):添加纠错检索。
- 两个冲突感知基线:
- **NLI-Filter**:使用交叉编码器 NLI 模型(DeBERTa-v3-base)检测成对矛盾,并从一致子集生成。
- **CoT Detection**:使用结构化思维链提示(GPT-4o-mini)在一次调用中识别冲突、分类类型并综合解决。为确保公平,CoT Detection 被提示生成可与 ConflictRAG 输出相比的结构化推理轨迹;所有提示模板见补充材料。
### IV-C 评估指标
我们报告**答案正确性(AC)**(通过 LLM 作为评判者 [27](https://arxiv.org/html/2605.17301#bib.bib19))、Token 级 **F1**、**冲突检测 F1**、**解决度**和**透明度**分数(LLM 评分 1–5),以及我们的 **CARS**(公式 5 (https://arxiv.org/html/2605.17301#S3.E5))。GPT-4o 作为评判者(温度 0,与用于生成的 GPT-4o-mini 不同)以减轻自我评估偏差。评判者评估事实正确性,不关心输出格式;残留的格式偏好在第 V-A 节 (https://arxiv.org/html/2605.17301#S5.SS1) 中量化。在 200 个样本上的人工验证确认与 LLM 评判者 85% 的一致性(\(\kappa = 0.74\),按 Landis-Koch 量表为高度一致)。
### IV-D 实现细节
所有实验使用 GPT-4o-mini [18](https://arxiv.org/html/2605.17301#bib.bib17)(检测温度 0.0,生成温度 0.3)。第一阶段使用 all-MiniLM-L6-v2(384 维),\(\tau_c = 0.7\)。MLP 在来自 750 个实例的 ConflictQA 子集的 3,000 个标记对(2,400 训练 / 600 验证)上训练,使用 Adam(\(lr = 10^{-3}\));剩余 1,250 个实例作为评估集。检索结合了 BM25 [19](https://arxiv.org/html/2605.17301#bib.bib11) 和 Contriever [9](https://arxiv.org/html/2605.17301#bib.bib12) 的混合流水线,\(K=5\)。结果在 3 个种子上平均;配对自助法检验得到所有主要比较的 \(p < 0.01\)。
## V. 结果与分析
### V-A 主要结果
表 I:在三个基准测试上与六种基线方法的主要结果。正确性(%)由 LLM 作为评判者(GPT-4o)评估,F1 为 Token 级,CARS 是我们的复合指标(公式 5 (https://arxiv.org/html/2605.17301#S3.E5))。最佳结果以**粗体**标出。(注:表格数据在原文中,此处为文字描述,需要保持原样)相似文章
RAG 能知道检索错误吗?在知识冲突下诊断上下文遵从性
本文提出了一种名为“上下文驱动分解”(CDD)的探针,用于诊断检索增强生成(RAG)系统在面对检索上下文与参数化知识冲突时,是否遵从检索上下文。同时,发布了 Epi-Scale 基准测试,以便在多种模型家族中进行系统性研究。
RAGA:用于自主知识图谱构建和检索增强生成的阅读与图谱构建智能体
RAGA 是一个由大语言模型驱动的自主智能体,通过“阅读-搜索-验证-构建”的认知循环构建知识图谱,并集成混合符号-向量检索以实现检索增强生成,在科学问答数据集上取得了实验性改进。
RAG-Anything:全能型 RAG 框架
RAG-Anything 是一个全新的开源框架,通过整合跨模态关系和语义匹配来增强多模态知识检索,在复杂的基准测试中表现优于现有方法。
Disco-RAG: 话语感知检索增强生成
Disco-RAG 提出了一个话语感知的检索增强生成框架,通过块内话语树和块间修辞图整合话语信号,以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果,无需微调。
AgenticRAG:面向企业知识库的代理检索
本文介绍了 AgenticRAG,这是一个来自微软的框架,通过为大型语言模型(LLM)配备迭代搜索、文档导航和分析工具,增强了企业知识库的检索能力。它在多个基准测试中展示了相比标准 RAG 流水线在召回率和事实准确性方面的显著提升。