RAG 能知道检索错误吗？在知识冲突下诊断上下文遵从性

arXiv cs.CL 2026/05/15 04:00 论文

摘要

本文提出了一种名为“上下文驱动分解”（CDD）的探针，用于诊断检索增强生成（RAG）系统在面对检索上下文与参数化知识冲突时，是否遵从检索上下文。同时，发布了 Epi-Scale 基准测试，以便在多种模型家族中进行系统性研究。

arXiv:2605.14473v1 公告类型：新摘要：在检索增强生成（RAG）中，当检索到的上下文与模型的参数化知识冲突时，如果最终答案仍由该上下文主导，则称为“上下文遵从机制”。仅凭准确性无法揭示在此类冲突下，检索到的上下文如何因果性地影响答案。我们提出了上下文驱动分解（CDD），这是一种推理时运行的信念分解探针，可作为控制检索冲突的干预机制。在 Epi-Scale 压力测试、TruthfulQA 误解注入以及跨模型重运行中，CDD 揭示了三种模式。P1：在最优对抗环境中，上下文遵从是可测量的，标准 RAG 在 TruthfulQA 误解注入测试（N=500）中准确率仅为 15.0%。P2：对抗性准确率的提升可跨模型家族迁移：CDD 提升了 Gemini-2.5-Flash 以及 Claude Haiku/Sonnet/Opus 的准确率，但推理-答案的因果耦合并未迁移。CDD 在 Gemini-2.5-Flash 上的错误注入因果敏感度达到 64.1%，而 Claude 的三个变体敏感度均落在 [-3%, +7%] 区间，表明 Claude 侧的准确率提升是通过与显式冲突解决轨迹不同的机制实现的。P3：显式冲突分解提升了在时间漂移和噪声干扰下的鲁棒性，在完整的 Epi-Scale 对抗基准测试中，CDD 在时间偏移和干扰证据上的准确率分别达到 71.3% 和 69.9%。这三种模式将上下文遵从识别为一个结构性轴，标准 RAG 可沿此轴进行探测和干预，这不同于检索质量或单一方法的鲁棒性问题，并激励我们发布 Epi-Scale 以便在不同模型家族和检索流水线上进行系统性研究。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:22

# RAG 知道检索何时出错吗？知识冲突下上下文合规性的诊断

来源: https://arxiv.org/html/2605.14473

陈一航1,\* 钱品2,\* 王苏2,\* 张思鹏3 徐欢1 林树怀2 韦新鹏1

1佐治亚理工学院 2卡内基梅隆大学 3加州大学圣地亚哥分校

ychen3726@gatech\.edu, pqian@alumni\.cmu\.edu suwang@alumni\.cmu\.edu, siz018@ucsd\.edu, huan\.xu71@gmail\.com shuhuail@andrew\.cmu\.edu, william\.xp\.wei@outlook\.com

\* 同等贡献。

###### 摘要

在检索增强生成（RAG）中，**上下文合规机制**是指即使检索到的上下文与模型的参数化知识相冲突，最终答案仍受该上下文主导的现象。仅凭准确性指标无法揭示在这种冲突下，检索到的上下文是如何因果性地塑造答案的。我们引入了**上下文驱动分解（CDD）**，一种在推理时运行、并作为受控检索冲突干预机制的信态分解探针。通过在Epi-Scale压力测试、TruthfulQA误解注入和跨模型重运行上的实验，CDD揭示了三种模式。**P1**: 上下文合规性在对抗性上界设定中是可测量的，在TruthfulQA误解注入（N=500）中，标准RAG的准确率仅为15.0%。**P2**: 对抗性准确率的提升可跨模型家族迁移——CDD提高了Gemini-2.5-Flash以及Claude Haiku/Sonnet/Opus的准确率——但理据-答案的因果耦合并未迁移。CDD在Gemini-2.5-Flash上的错误注入因果敏感性达到64.1%，而所有三个Claude变体的敏感性均落在\[-3%, +7%\]范围内，这表明Claude侧的准确率提升是通过一种与显式冲突解决轨迹不同的机制实现的。**P3**: 显式冲突分解提高了在时间漂移和噪声干扰物下的鲁棒性，在完整的Epi-Scale对抗性基准上，CDD在时间偏移上达到71.3%，在干扰物证据上达到69.9%。这三种模式将上下文合规性确定为一个结构性轴线，标准RAG可在此轴线上被探测和干预，这与检索质量或单一方法鲁棒性问题不同，并推动了Epi-Scale的发布，以便跨模型家族和检索管道进行系统研究。

## 1 引言

标准检索增强生成（RAG）[6 (https://arxiv.org/html/2605.14473#bib.bib3)] 可能进入一种**上下文合规机制**：即使检索到的上下文与模型的参数化知识相冲突，最终答案仍受该上下文主导。这种冲突可能源于良性的检索不匹配、过时的文档以及故意的对抗性注入[15 (https://arxiv.org/html/2605.14473#bib.bib6), 19 (https://arxiv.org/html/2605.14473#bib.bib15)]。例如，当诸如“掰手指会导致关节炎”[7 (https://arxiv.org/html/2605.14473#bib.bib4)]这种普遍存在的误解被作为检索到的上下文提供时，模型可能会遵循上下文而非其内部科学先验知识。这种行为之所以重要，是因为RAG系统通常将检索到的证据视为权威，而没有直接衡量模型是否检测并解决了一个认知冲突。

标准的准确性评估在这种情况下是不够的。一个正确的答案无法揭示模型是使用了检索到的证据、忽略了它，还是遵循了一个内部不一致的理据生成了答案；一个错误的答案也无法区分是普通的知伤失败还是上下文诱导的合规行为。因此，在冲突情况下，我们需要能够揭示上下文主张、参数化信念、理据和最终答案之间关系的诊断方法。

我们引入了**上下文驱动分解（CDD）** 作为这样一种探针——一种信念分解过程，它分别引出上下文答案和参数化答案，要求模型对它们进行比较，隔离冲突的前提，并记录解决轨迹。我们利用这个轨迹，通过错误注入和截断干预，来衡量检索到的上下文何时因果性地塑造了最终答案。CDD并非作为一种生产环境下的防御方法提出，也不声称能普遍提升平均准确率；它的作用是使原本隐式的冲突解决行为变得可观察。

我们做出了两项实质性贡献和一项资源贡献：

1. 1.**诊断框架**：我们在信念修正框架内形式化了上下文合规行为，并在受控的合成冲突和最坏情况的误解注入下对其进行了衡量。
2. 2.**干预机制**：我们展示了CDD在受控检索冲突下提高了鲁棒性，在扰动类别间具有一致的提升，并在模型家族间具有正向迁移。
3. 3.**资源**：我们引入了**Epi-Scale**，一个包含4500个样本的基准测试，用于探测不同检索设置下的合规性、耦合性和鲁棒性机制；数据和代码将在论文发表后发布。

**范围和声明限制**。本文范围是诊断性的。我们使用CDD来揭示冲突解决行为何时存在、何时缺失或具有模型特异性；我们不声称CDD是一种通用防御、一种平均情况下的最先进RAG方法，或是检索过滤的替代品。本实验证据应被视为一项受控研究，而非部署建议：我们没有证明CDD解决了幻觉问题，或者它能抵御有机的多文档虚假信息检索。这些仍属于后续评估的范畴。

## 2 相关工作

**RAG中的知识冲突**。参数化记忆与外部证据之间的紧张关系已有充分记录。先前的工作研究了模型何时应依赖参数化知识而非检索到的知识[9 (https://arxiv.org/html/2605.14473#bib.bib8)]，实体替换如何改变QA输出[8 (https://arxiv.org/html/2605.14473#bib.bib9)]，以及模型如何应对冲突的检索证据[15 (https://arxiv.org/html/2605.14473#bib.bib6), 3 (https://arxiv.org/html/2605.14473#bib.bib10)]。与那些主要评估系统在冲突下是否能正确回答的工作不同，我们使用分解作为探测模型冲突解决行为的手段。

最近的2024年工作沿着三个轴线细化了这一图景。ClashEval[14 (https://arxiv.org/html/2605.14473#bib.bib16)]系统地量化了LLM的参数化先验知识与外部证据之间的“拉锯战”作为证据质量的函数，将冲突框架化为一个可测量的频谱。ASTUTE RAG[12 (https://arxiv.org/html/2605.14473#bib.bib17)]在方法层面通过结合内部知识引出与迭代整合来解决不完美检索和知识冲突。修正性检索增强生成（CRAG）[17 (https://arxiv.org/html/2605.14473#bib.bib18)]在生成之前插入一个检索评估器，将检索到的证据分类为正确/模糊/错误三个区间，从而修改检索管道而非生成步骤。一篇关于LLM中知识冲突的近期综述[16 (https://arxiv.org/html/2605.14473#bib.bib19)]将失败模式组织为上下文-记忆、上下文间和记忆内冲突。CDD特别针对上下文-记忆冲突轴线，并补充了这些方法，它将冲突视为推理时可观察的现象，而不是在生成上游进行过滤、缓解或整合的量。

**鲁棒和过滤的RAG**。诸如Self-RAG[2 (https://arxiv.org/html/2605.14473#bib.bib1)]之类的方法训练模型生成反思标记，而NLI-filtered RAG在生成之前移除无支持的检索文档[18 (https://arxiv.org/html/2605.14473#bib.bib7)]。这些方法试图提高生成质量或检索可靠性。CDD的目标不同：它是一种推理时诊断工具，即使这样做不会提高特定模型的准确率，也能保持冲突可见。

**上下文感知解码与参数化-上下文冲突**。上下文感知解码对比上下文logits和参数化logits，以减少对误导性上下文的过度依赖[10 (https://arxiv.org/html/2605.14473#bib.bib5)]。我们的公式与此相关，但我们针对的是logit级别访问不可用的封闭API模型。我们不是直接计算词元级别的散度，而是通过CDD以自然语言引出上下文答案和参数化答案，并将由此产生的轨迹视为可观察的诊断产物。

**思维链的忠实性**。思维链（CoT）推理中的一个关键挑战是生成的理据是否确实影响了最终答案。Turpin等人[11 (https://arxiv.org/html/2605.14473#bib.bib11)]表明，CoT解释可能具有系统性的误导性。Lanham等人[5 (https://arxiv.org/html/2605.14473#bib.bib2)]引入了诸如截断和错误注入之类的因果干预。我们将这些干预措施改编用于检索引发的冲突，并利用它们来衡量CDD的解决轨迹是否与答案因果耦合。

图1: CDD管道及CDD-α NLI门控旁路。高冲突样本进入完整分解探针，而低冲突样本在汇聚到最终答案之前遵循标准RAG旁路。

## 3 上下文-参数化冲突的信念修正框架

### 3.1 冲突的概念公式化

LLM中的知识冲突可以在信念修正框架下概念化[1 (https://arxiv.org/html/2605.14473#bib.bib13)]。我们区分模型的参数化先验Pθ\(a∣q\)——内部世界知识——和以检索证据为条件的上下文后验Pθ\(a∣q,c\)。**合规机制**发生在后验先验主导尽管与先验存在偏离的时候；标准RAG可能进入此机制，因为生成直接以检索到的证据为条件。相反，**解决机制**需要检测和仲裁偏离。虽然这两个机制之间的概念轴线对应于两个分布之间的散度度量（例如，Jensen-Shannon散度），但精确的词元级别计算需要白盒logit访问。我们的基于提示的实例化通过显式答案生成而非logit比较使这种散度变得可观察；我们将开放权重模型上的词元级别JSD实例化视为自然延伸。

### 3.2 CDD框架

CDD通过一个五步推理轨迹（图1 (https://arxiv.org/html/2605.14473#S2.F1)）使隐式冲突显式化。这五个步骤作为探针工具：每个步骤暴露了一个在标准RAG下保持隐式的特定信念修正操作。

1. **步骤1：上下文提取**：输出a^ctx。
2. **步骤2：参数化提取**：输出a^param。
3. **步骤3：散度检查**：比较a^ctx和a^param。
4. **步骤4：前提隔离**：如果它们冲突，则从c中提取离散的前提。
5. **步骤5：解决**：根据引出的参数化答案评估前提，以输出最终答案。

### 3.3 算法变体：CDD-α

我们还报告了**CDD-α**，一种用于研究计算/准确率权衡的计算感知路由变体。上下文c被分割成句子{si}。一个NLI模型对蕴含关系进行评分：Scorei = PNLI\(矛盾∣ si, a^param\)。如果max\(Scorei\) \> τ，则样本被路由到深度CDD逻辑。否则，它默认采用标准RAG。此路由规则实现了一种选择性干预设置，其中只有高冲突示例才调用完整的分解轨迹。

## 4 实验设置

### 4.1 Epi-Scale基准测试

Epi-Scale包含4500个实例，均等取自HotpotQA（多跳）、Natural Questions（单跳）和FEVER（事实验证）。构建方式：50%的数据是干净的检索上下文。剩下的50%通过一个参数化为高语义方差的LLM扰动引擎处理。我们生成了四个互斥的扰动子集：实体交换、时间偏移、逻辑矛盾和干扰物证据。（完整生成细节见附录B (https://arxiv.org/html/2605.14473#A2)）。

**合成扰动的局限性**：尽管Epi-Scale在模板化数据集上有所改进，但与有机的人类虚假信息相比，LLM生成的对抗性文本通常表现出较低的困惑度和均匀的词汇多样性。我们通过在TruthfulQA[7 (https://arxiv.org/html/2605.14473#bib.bib4)]上包含真实世界评估来缓解这一点。

### 4.2 评估范围

我们使用三个评估设置，每个具有不同的诊断作用。Epi-Scale合成冲突是一个受控的扰动压力测试，用于隔离特定冲突类型。TruthfulQA误解注入是一个最坏情况的上界合规性测试，而不是一个有机的检索基准。Claude家族复制是一个跨模型诊断检查，用于观察到的耦合和冲突解决信号是否具有模型特异性。

主要对抗性分析报告完整的Epi-Scale对抗性分割：2250个示例，均等分布在四种扰动类型中（每种约562–563个示例）。表1中的每种扰动准确率是在每个组中的所有示例上计算的，宏观平均值是四个扰动单元未加权算术平均值。

### 4.3 评估指标

我们使用**归一化匹配**（小写、标点去除、别名映射）以避免惩罚安全的迂回表述。

- •**准确率与宏观平均值**：每个扰动组的准确率是独立计算的。“宏观平均值”表示所显示的四种扰动准确率的未加权算术平均值。
- •**置信区间**：对于表1，每个单元95% CI是基于该扰动组中约562–563个样本的、半宽为z0.975 sqrt(p̂(1-p̂)/n)的正态近似二项式区间。宏观平均半宽计算为z0.975 × (1/4) × sqrt(∑i p̂i(1-p̂i)/ni)，假设四个扰动单元是独立样本。我们注意到，这种传播没有考虑由HotpotQA/NQ/FEVER共享的问题池可能引入的相关性。
- •**因果敏感性**：我们使用干预测试（截断和错误注入）[5 (https://arxiv.org/html/2605.14473#bib.bib2)]来量化忠实度。敏感性是相对准确率下降，定义为(Accclean − Acccorrupted)/Accclean。

### 4.4 显著性报告

我们报告基于CI的保守显著性检查，而不是配对假设检验，用于最大的方法差距。对于完整的对抗性分割，我们报告每个单元的二项式95%置信区间；CDD与最强非CDD基线（Self-RAG）在实体交换（88.0%±2.7 对比 69.5%±3.8）和逻辑矛盾（83.2%±3.1 对比 65.0%±3.9）上的CI不重叠，实例化了这种检查，应用于观察到的最大差距。混合干净/对抗性比较使用完整4500样本Epi-Scale基准上的配对自助法，以干净准确率和对抗性准确率的调和平均值作为聚合鲁棒性指标。

RAG 能知道检索错误吗？在知识冲突下诊断上下文遵从性

相似文章

ConflictRAG：检测并解决检索增强生成中的知识冲突

ContextRAG：面向检索增强生成的无抽取层次图构建

RAGA：用于自主知识图谱构建和检索增强生成的阅读与图谱构建智能体

KACE：面向数学推理的知识自适应上下文工程

上下文-参数冲突的三种机制：预测框架与实证验证

提交意见反馈