为稳健的 RAG 评估生成无知识泄露的基准测试

arXiv cs.CL 2026/05/12 04:00 论文

rag benchmark-generation knowledge-leakage evaluation large-language-models reasoning-graphs

摘要

本文介绍了 SeedRG，这是一个半合成的基准测试生成管道，旨在通过创建保留推理结构但不在模型参数记忆中的新实例，消除检索增强生成 (RAG) 评估中的知识泄露。

arXiv:2605.08838v1 公告类型：新发布摘要：检索增强生成 (RAG) 被广泛用于利用外部知识增强大型语言模型 (LLMs)。然而，许多旨在测试 RAG 性能的基准数据集包含大量模型可以通过其参数记忆直接回答的问题。这导致评估结果不可靠。我们将这种现象称为知识泄露：即在无需检索的情况下即可解决 RAG 任务的情况。由于基准测试老化，这一问题随着时间推移而加剧。随着基准测试被重复用于训练，其内容越来越多地被吸收进模型参数中，使其在评估检索能力时效果降低。我们引入了 SeedRG，这是一个半合成的基准测试生成管道，旨在缓解知识泄露并解决基准测试老化问题。从种子基准数据集出发，SeedRG 从问题-上下文对中抽取推理图以捕获其潜在的推理结构，然后通过类型约束实体替换生成新实例。该过程产生的实例在结构上相似但具有新颖性，不太可能存在于模型的参数知识中，同时保留了原始的推理模式。为确保质量，我们结合了两个验证步骤：(1) 推理图一致性检查，以保持任务难度；(2) 知识泄露过滤器，以排除无需检索即可回答的实例。

查看原文

查看缓存全文

缓存时间: 2026/05/12 07:03

# 生成无泄漏基准以进行鲁棒的 RAG 评估

来源: https://arxiv.org/html/2605.08838

Jiaxing Zhang  
新泽西理工学院  
Bowen Jin  
伊利诺伊大学厄巴纳-香槟分校  
Jennifer Neville  
普渡大学计算机系  
微软研究院

###### 摘要

检索增强生成（RAG）被广泛用于通过外部知识来增强大语言模型（LLMs）。然而，许多旨在测试 RAG 性能的基准数据集包含大量可以通过 LLM 的参数化记忆直接回答的问题。这导致了评估结果不可靠。我们将这种现象称为“知识泄漏”（knowledge leakage），即在不进行检索的情况下也能解决 RAG 任务。由于“基准老化”（benchmark aging），这一问题随着时间的推移而加剧。随着基准数据集被重复用于训练，其内容逐渐被吸收进模型参数中，使得它们在评估检索能力时效果降低。

我们引入了 **SeedRG**，这是一种半合成基准生成管道，旨在缓解知识泄漏并解决基准老化问题。SeedRG 从种子基准数据集中提取问题-上下文对背后的推理图（reasoning graph）以捕捉其潜在的推理结构，然后通过类型约束的实体替换（type-constrained entity replacement）生成新示例。这一过程产生的实例在结构上与原始数据相似但具有新颖性，不太可能存在于模型的参数化知识中，同时保留了原始的推理模式。为了保证质量，我们 incorporated 了两个验证步骤：（1）推理图一致性检查以维持任务难度，以及（2）知识泄漏过滤器以排除无需检索即可回答的实例。

我们在三个种子基准（HotpotQA, 2WikiMultihopQA, QASC）和三种流行的 LLMs（GPT-5, Claude Sonnet 4.5, Gemini 2.5 Flash）上评估了 SeedRG。SeedRG 将知识泄漏减少了至少 78%，同时保持了推理难度。通过消除参数化知识的混杂效应，SeedRG 揭示了不同 RAG 系统之间原本被掩盖的显著差异。在先前的基准中，由于性能主要由模型知识主导，各种 RAG 方法（HippoRAG, GraphRAG, OGRAG, SemanticRAG）表现出普遍的高性能。相比之下，SeedRG 清楚地展示了这些方法在检索和推理能力上的差异。除了基准构建之外，我们还提供了一项系统性分析，将推理难度与图结构联系起来，展示了结构变化如何导致模型准确率的预测性变化。总之，这些结果表明 SeedRG 能够实现更具判别力和鲁棒性的 RAG 系统评估。

## 1 引言

检索增强生成（RAG）Lewis et al. (2020) 被广泛用于通过在推理时引入外部知识来提升大语言模型（LLMs）。由于 RAG 利用检索避免了重新训练，它已成为知识密集型任务的标准方法。RAG 系统的进展通常使用多跳问答（multi-hop question answering）基准来衡量，这些基准旨在要求对多篇文档进行检索。

然而，这些基准往往根本无法测试检索能力。我们发现，在广泛使用的多跳 QA 数据集中，LLM 可以在*不检索任何文档*的情况下正确回答超过一半的问题。当大多数问题仅通过 LLM 的参数化记忆即可解决时，评估结果主要受模型内部知识的影响，而非检索质量。因此，当前的基准无法有意义地区分 RAG 系统——即使弱势的检索器也能从底层模型中继承强劲的性能。

这一问题削弱了大量实证工作的基础。RAG 系统现在是开放域问答 Petroni et al. (2021)、事实验证和特定领域推理等应用的核心，其检索方法生态系统日益庞大——包括基于密集向量、图和本体引导的方法——在共享基准上进行竞争。当基准可以通过参数化记忆解决时，性能主要由底层模型主导，而非检索器，导致系统间的可观差异消失。这掩盖了检索质量的差异，限制了我们要衡量不同检索策略如何影响下游推理的能力。

我们确定了导致这种评估失效的两个机制：

1.  **知识泄漏** Agarwal et al. (2024); Wu et al. (2025); Desai et al. (2026); Yoon et al. (2025)：当基准问题可以从 LLM 的参数化记忆中回答时发生，使得检索变得不必要。
2.  **基准老化** Zhou et al. (2023); Zhang et al. (2026)：随着时间推移加剧了上述效应。随着基准在训练和数据策展管道中被重复使用，其内容被吸收进模型参数，逐渐降低了测试检索的能力。

这两种机制共同导致评估信号崩溃，掩盖了系统之间的差异。

解决这个问题需要满足以下条件的基准：（1）位于模型参数化知识之外，（2）可再生以保持对基准老化的鲁棒性。一种自然的方法是使用 LLM 生成新数据。然而，天真的生成方法无法满足这些要求：生成的问题往往重用知名实体（导致持续泄漏），可能在支持上下文中引入事实错误，并且无法控制推理难度。

> **图 1 说明**：RAG 评估差距的示例。(a) 现有基准与 LLM 预训练数据重叠，使检索变得多余。(b) SeedRG 在保留种子问题推理结构的同时，将所有实体替换为新颖的对应实体，确保不与参数化知识重叠。

我们引入 **SeedRG**，这是一种解决这些挑战的半合成基准生成管道。从种子基准开始，SeedRG 从每个问题-上下文对中提取*推理图*以捕捉其潜在结构，然后通过*类型约束的实体替换*生成新示例。这产生了结构等价但新颖的实例，它们不太可能存在于模型的参数化知识中，同时保留了原始的推理模式。

为了确保质量，SeedRG 包含两个验证步骤。*推理图一致性检查*确保转换后的示例保留原始的推理结构和难度。*知识泄漏检查*过滤掉无需检索即可回答的实例。这两个步骤共同确保生成的示例既依赖检索又保持难度不变。此外，我们引入了两个指标——*泄漏误差*（leakage error）和*可回答性准确率*（answerability accuracy）——以量化 RAG 基准的有效性。

总之，我们的贡献如下：

1.  我们提供了系统性证据，表明三个广泛使用的多跳 QA 基准存在知识泄漏，并从泄漏误差和可回答性准确率的角度形式化了基准质量。
2.  我们提出了 **SeedRG**，这是一种半合成管道，通过结合推理图提取和类型约束的实体替换来生成无泄漏基准，并通过双重验证来保持难度并强制执行检索依赖性。
3.  我们表明，SeedRG 产生的基准减少了知识泄漏，保持了推理难度，并揭示了现有基准中 obscured 的不同 RAG 系统之间的有意义性能差异。与直接的 LLM 生成相比，SeedRG 产生了更高质量的基准，具有更低的泄漏率和更少的事实不一致性。

## 2 背景

### 2.1 合成数据集

##### 用于 RAG 的合成基准

最近的框架通过自动化数据合成标准化了 RAG 系统的评估。RAGEval Zhu et al. (2024) 生成了由模式驱动的数据集以评估*特定场景*的事实准确性。它使用三个关键指标来定义数据集质量：答案的*完整性*、*幻觉*的缺失以及非必需内容的*无关性*。为了扩展这种方法，BenchmarkQED Research (2025) 使用 AutoQ 工具在原则性的 2x2 分类法中生成合成查询。它通过*覆盖率*（查询类型的多样性）和*严谨性*（比较排名的稳定性）来衡量质量。然而，这两个框架都有一个关键限制：它们未能添加避免生成已存在于 LLM 知识中的查询的限制。通过未能明确分离参数化记忆与检索必要性，这些基准难以隔离检索组件的真实效用。

##### 用于指令微调的合成数据

在更广泛的模型对齐背景下，合成数据质量通常由下游效率而非检索隔离来定义。Distilling Step-by-Step Hsieh et al. (2023) 和 Orca Mukherjee et al. (2023) 表明，“好”的合成数据允许较小的学生模型以更少的训练样本实现*教师级*性能。同样，MetaMath Yu et al. (2023) 和 SynPO Dong et al. (2024) 通过向未见过的数学任务进行*推理迁移*以及在公共排行榜上的*迭代胜率提升*来验证数据集质量。虽然这些方法成功地增强了通用推理和对齐，但它们并未解决在 RAG 任务中严格防止基于记忆的幻觉所需的特定知识边界约束。

我们在几个基准上没有观察到准确率的显著改善。在某些情况下，尽管检索模块返回了正确的支持段落，性能甚至下降。这表明语言模型通常已经拥有足够的参数化知识来回答问题，而不依赖检索到的证据，从而限制了外部检索的好处。

### 2.2 LLM 中的知识泄漏

知识泄漏在之前的研究中被广泛讨论。最近的工作质疑了 LLM 在推荐 Zhang et al. (2026); Zhou et al. (2023)、查询扩展 Yoon et al. (2025)、隐私 Agarwal et al. (2024); Wu et al. (2025); Desai et al. (2026) 以及许多其他任务 Baser et al. (2025) 中的有效性。

为了防止知识泄漏，研究人员应用了不同的策略。Agarwal et al. (2024); Desai et al. (2026) 使用提示或系统层内的防御指令和过滤护栏来阻止泄漏。Wu et al. (2025) 和 Baser et al. (2025) 提出安全的 KV 缓存管理和知识图谱监控作为额外的系统设计来跟踪和解决泄漏问题。Zhou et al. (2023); Zhang et al. (2026) 在微调阶段添加约束以防止知识泄漏。

## 3 形式化有效的 RAG 基准

在提出解决方案之前，我们形式化了 RAG 基准*有效*的含义。具体而言，它应该衡量检索质量，而不是参数化知识的回忆。我们确定了有效性的两个必要条件，并展示了现有基准如何违反它们。

有效的 RAG 基准必须分离模型已知的内容和通过检索提供的内容。当这种分离失败时，评估信号崩溃，性能由参数化知识主导，使得难以将增益归因于检索。我们将这种失效形式化为*知识泄漏*，并认为由于*基准老化*，它随着时间的推移而加剧。

### 3.1 知识泄漏

令 $M$ 表示语言模型，$\mathcal{Q}$ 表示基准数据集。对于每个问题 $q \in \mathcal{Q}$，我们在两种条件下测量准确率：$Acc_{no\_ctx}$（当模型在没有检索上下文的情况下生成答案时）和 $Acc_{gold}$（当模型仅给定地面真实的支持文档时生成答案）。

当 $Acc_{no\_ctx}$ 很高时，发生知识泄漏，表明问题可以直接从参数化记忆中回答。在这种模式下，检索没有提供任何额外信息，基准性能不再反映检索质量。正如我们在第 5.2 节所示，$Acc_{no\_ctx}$ 在 HotpotQA Yang et al. (2018) 上达到 52%，在 2WikiMultihopQA Welbl et al. (2018) 上达到 62%，在 QASC Khot et al. (2020) 上达到 75%。

我们为有效的 RAG 基准形式化了两个标准：

1.  **泄漏误差**。问题仅能从参数化知识中回答的程度：$Acc_{no\_ctx}(\mathcal{Q})$。有效的基准应具有低泄漏误差。
2.  **可回答性准确率**。提供正确上下文时准确率的提升：$Acc_{gold}(\mathcal{Q}) - Acc_{no\_ctx}(\mathcal{Q})$。有效的基准应表现出高可回答性准确率。

这两个标准共同确保基准性能反映依赖检索的推理，而不是记忆。

### 3.2 基准老化

即使基准最初满足这些标准，它也会随时间退化 Zhou et al. (2023); Zhang et al. (2026)。随着预训练语料的扩展，基准问题越来越多地被纳入模型训练数据。这逐渐增加了 $Acc_{no\_ctx}$，增加了泄漏误差，并削弱了基准测试检索的能力。

对于静态基准，这一过程是不可逆的——没有机制可以防止它们被吸收到参数化知识中。结果是报告的性能逐渐膨胀，这反映了记忆能力的提高，而不是检索能力的提高。因此，基准失去了评估 RAG 系统的判别力。因此，有效的 RAG 基准不仅要最小化知识泄漏，还必须对基准老化保持鲁棒。

## 4 方法论

我们不是引入静态基准，而是提出了 **SeedRG**，这是一个*持续生成*基准的框架，旨在最小化*知识泄漏*同时保持*可回答性*。

为稳健的 RAG 评估生成无知识泄露的基准测试

相似文章

ScalableRAG：零摄入成本的高质量RAG

面向LongEval-RAG的候选约束检索增强生成：系统设计与实证分析

RAG基准应精细到何种程度？一种层次化合成问题生成框架

GRACE-RAG：规范证据合成的受控检索架构，支持在封闭领域机构环境中轻量化部署

MKG-RAG-Bench：多模态知识图谱增强生成中的检索基准测试

提交意见反馈