PRA-RAG:检索增强生成中针对检索损坏的可证明鲁棒聚合

arXiv cs.AI 论文

摘要

PRA-RAG是一种用于检索增强生成的可证明鲁棒的聚合算法,旨在抵御对检索文本的投毒攻击。它利用嵌入空间中的几何结构来识别鲁棒子集,并提供攻击影响的理论界限,将攻击成功率降低至1%,同时保持准确率。

arXiv:2607.00012v1 Announce Type: cross Abstract: 检索增强生成(RAG)通过整合外部知识增强了大型语言模型(LLM),有效缓解了其固有的知识局限。然而,RAG仍然容易受到投毒攻击,这类攻击通过操纵检索文本来误导模型输出。现有的防御机制通常缺乏理论上的鲁棒性保证,并且当LLM对检索内容了解有限时,表现不可靠。在这项工作中,我们提出了PRA-RAG,这是一种可证明鲁棒的检索聚合算法,旨在抵御对检索文本的投毒攻击。PRA-RAG对检索文本的多种组合进行采样,并利用嵌入空间中的几何结构来识别一个鲁棒子集,从而导出稳定的聚合表示。我们提供了受污染检索内容最大影响的理论界限,并建立了RAG鲁棒性的定量度量。在多基准测试和多种RAG架构上的实验表明,PRA-RAG将攻击成功率降低至1%,同时保持71%的准确率,显著优于现有的代表性方法。
查看原文
查看缓存全文

缓存时间: 2026/07/02 05:41

PRA-RAG: Provably Robust Aggregation in Retrieval-Augmented Generation against Retrieval Corruption
Source: https://arxiv.org/html/2607.00012
Xue Tan1,3, Yi Zheng1, Chang Huo1, Yunruo Zhang3, Yu Liu1,3, Hao Luan1,3, Zhuyang Yu1,3, Xiaoyan Sun2🖂, Ping Chen3🖂, Jun Dai2🖂
1School of Computer Science, Fudan University, Shanghai, China, 2Department of Computer Science, Worcester Polytechnic Institute, MA, USA, 3Institute of Big Data, Fudan University, Shanghai, China, Corresponding authors: [email protected] (https://arxiv.org/html/2607.00012v1/mailto:[email protected]), [email protected] (https://arxiv.org/html/2607.00012v1/mailto:[email protected]), [email protected] (https://arxiv.org/html/2607.00012v1/mailto:[email protected])

###### 摘要

检索增强生成(RAG)通过引入外部知识来增强大语言模型(LLM),有效缓解了其固有的知识局限性。然而,RAG 仍然容易受到投毒攻击,这些攻击会操纵检索到的文本以误导模型输出。现有的防御机制通常缺乏理论上的鲁棒性保证,并且在 LLM 对检索内容了解有限的情况下表现不可靠。在这项工作中,我们提出了 PRA-RAG,一种可证明鲁棒的检索聚合算法,旨在防御针对检索文本的投毒攻击。PRA-RAG 对检索文本的多种组合进行采样,并利用嵌入空间中的几何结构来识别一个鲁棒子集,从而推导出稳定的聚合表示。我们给出了被投毒检索内容最大影响的理论界限,并建立了 RAG 鲁棒性的量化度量。在多个基准和 RAG 架构上的实验表明,PRA-RAG 将攻击成功率降低至低至 1%,同时保持了 71% 的准确率,显著优于代表性的最先进(SOTA)方法。

PRA-RAG: Provably Robust Aggregation in Retrieval-Augmented Generation against Retrieval Corruption
Xue Tan1,3, Yi Zheng1, Chang Huo1, Yunruo Zhang3, Yu Liu1,3, Hao Luan1,3, Zhuyang Yu1,3, Xiaoyan Sun2🖂, Ping Chen3🖂, Jun Dai2🖂
1School of Computer Science, Fudan University, Shanghai, China, 2Department of Computer Science, Worcester Polytechnic Institute, MA, USA, 3Institute of Big Data, Fudan University, Shanghai, China, Corresponding authors: [email protected] (https://arxiv.org/html/2607.00012v1/mailto:[email protected]), [email protected] (https://arxiv.org/html/2607.00012v1/mailto:[email protected]), [email protected] (https://arxiv.org/html/2607.00012v1/mailto:[email protected])

## 1 引言

检索增强生成(RAG)(Lewis et al., 2020 (https://arxiv.org/html/2607.00012#bib.bib20)) 是一种先进的生成范式,通过集成外部知识数据库来有效解决 LLM 在领域特定知识覆盖和获取最新信息方面的局限性。在典型的 RAG 流程中,当用户提交查询(例如“最高山峰的名字是什么?”)时,检索器首先使用文本编码器(例如 BERT (Kenton and Toutanova, 2019 (https://arxiv.org/html/2607.00012#bib.bib17)))将其编码为嵌入向量,然后从外部知识数据库中检索最相似的文本。这些检索到的文本随后作为上下文提供给 LLM,以指导和增强响应生成过程。RAG 因其在知识增强和高质量生成方面的优势而被广泛应用于各种实际应用中,著名的例子包括 ChatGPT (Achiam et al., 2023 (https://arxiv.org/html/2607.00012#bib.bib1))、Microsoft Bing Chat (Microsoft, 2024 (https://arxiv.org/html/2607.00012#bib.bib21)) 和 Google Search AI (Google, 2024 (https://arxiv.org/html/2607.00012#bib.bib10))。

然而,外部知识数据库的集成进一步加剧了 LLM 的安全问题 (rocky, 2024 (https://arxiv.org/html/2607.00012#bib.bib23); BBC, 2024 (https://arxiv.org/html/2607.00012#bib.bib5))。最近的研究表明,向检索文本中注入恶意内容可以引导 LLM 生成符合攻击者意图的响应(例如,当目标问题是“最高山峰的名字是什么?”时,目标答案可能是“富士山”),从而对 RAG 系统的可靠性和安全性构成严重威胁 (Zou et al., 2024 (https://arxiv.org/html/2607.00012#bib.bib39); Greshake et al., 2023 (https://arxiv.org/html/2607.00012#bib.bib11); Tan et al., 2024 (https://arxiv.org/html/2607.00012#bib.bib25))。

为了对抗由被投毒文本引发的攻击,AstuteRAG (Wang et al., 2025 (https://arxiv.org/html/2607.00012#bib.bib27)) 和 TrustRAG (Zhou et al., 2025 (https://arxiv.org/html/2607.00012#bib.bib38)) 引入了基于检测的防御机制,利用 LLM 的内部知识来识别和过滤恶意检索内容。然而,在 LLM 缺乏足够知识来识别被投毒输入的场景下,它们的有效性受到限制。此外,现有方法 (Wang et al., 2025 (https://arxiv.org/html/2607.00012#bib.bib27); Zhou et al., 2025 (https://arxiv.org/html/2607.00012#bib.bib38); Wei et al., 2024 (https://arxiv.org/html/2607.00012#bib.bib28); Asai et al., 2024 (https://arxiv.org/html/2607.00012#bib.bib2)) 缺乏用于认证或量化 RAG 系统鲁棒性的理论框架,使得它们在对抗条件下的可靠性在很大程度上未经验证。RobustRAG (Xiang et al., 2024 (https://arxiv.org/html/2607.00012#bib.bib29)) 为 LLM 输出保证了鲁棒性,但需要多次 LLM 生成,从而导致较高的计算开销。

在这项工作中,我们提出了 PRA-RAG,一种用于 RAG 系统的可证明鲁棒的检索聚合算法,旨在减轻检索阶段的投毒攻击风险。在检索过程中,我们有意扩大候选集以增加信息多样性,这通过减少单个恶意文本的影响来增强系统对被投毒内容的鲁棒性。聚合过程包含三个关键步骤。首先,对检索文本的多个子集进行采样,形成多样化的候选组合,从而将投毒内容的影响限制在可控范围内。其次,每个组合被编码为一个嵌入向量。在这个几何空间中,我们识别出一个包含超过半数组合的最小半径球,并将其中心作为选定的鲁棒子集。最后,对所选子集的嵌入进行加权平均,得到鲁棒表示,该表示捕获了共识并减少了异常值的影响。得益于所提出的最小半径球概念,我们建模了由投毒攻击引起的检索文本语义偏移。我们证明这种偏移受到一个理论上限的约束,这在第 5 节 (https://arxiv.org/html/2607.00012#S5) 中得到了数学证明。语义偏移量化了投毒如何影响检索,而该上限为约束这种影响提供了理论基础。

我们的主要贡献如下:
- **理论**:我们从理论上刻画并认证了由被投毒检索引起的最大语义偏差,为评估系统鲁棒性和攻击有效性提供了原则性指标。
- **算法**:我们提出了 PRA-RAG,一种用于 RAG 系统的可证明鲁棒的聚合算法,有效减轻了被投毒检索的影响并保持了生成输出的准确性。
- **评估**:我们进行了大量实验来验证 PRA-RAG 的有效性。例如,在 MSMARCO 数据集上,当 20% 的检索内容被投毒时,我们的方法实现了 71% 的准确率,同时将攻击成功率降低至仅 1%。我们的方法在效率上也超越了最先进的方法。

## 2 背景与相关工作

**检索增强生成**。RAG 包含三个组件:知识数据库、检索器和 LLM。知识数据库包含超出 LLM 训练数据的新增或更新信息,通常来源于 Wikipedia (Thakur et al., 2021 (https://arxiv.org/html/2607.00012#bib.bib26)) 等平台。检索器选择与查询 \(q\) 最相似的 Top-\(K\) 文本作为外部上下文,LLM 利用这些上下文以及 \(q\) 来生成答案。RAG 涉及两个关键阶段:检索和生成。在检索步骤中,检索器为查询 \(q\) 选择 Top-\(K\) 相关知识片段。这是通过两个编码器完成的:\(E_q\) 用于查询,\(E_p\) 用于知识段落。每个段落嵌入 \(E_p(p_i)\) 与 \(E_q(q)\) 使用相似度度量(例如余弦或点积)进行比较,Top-\(K\) 结果形成上下文 \(\mathcal{X}_q\)。在生成步骤中,查询 \(q\) 和上下文 \(\mathcal{X}_q\) 被组合成提示词,供 LLM 生成响应。

**检索破坏攻击**。RAG 中外部知识数据库的使用引入了安全漏洞。PoisonedRAG (Zou et al., 2024 (https://arxiv.org/html/2607.00012#bib.bib39)) 通过基于优化的方法生成对抗性制作的文本,并将其注入知识数据库,从而诱导 LLM 产生攻击者指定的目标响应。拒绝服务攻击 (Shafran et al., 2024 (https://arxiv.org/html/2607.00012#bib.bib24)) 涉及在知识数据库中插入单个“阻断”文档,该文档会针对特定查询被检索,并导致 RAG 系统拒绝回答该查询。对抗性解码 (Zhang et al., 2025c (https://arxiv.org/html/2607.00012#bib.bib37)) 通过对抗性解码生成可读的对抗性文本,从而进行 RAG 投毒和 LLM 防护绕过。BadRAG (Xue et al., 2024 (https://arxiv.org/html/2607.00012#bib.bib31)) 采用白盒优化来攻击检索器,并使用手工制作的文档来针对生成器。PR-Attack (Jiao et al., 2025 (https://arxiv.org/html/2607.00012#bib.bib16)) 联合优化触发器和小量被投毒文本,以隐蔽地诱导 RAG 系统生成目标响应。CorruptRAG (Zhang et al., 2025a (https://arxiv.org/html/2607.00012#bib.bib35)) 通过提示 LLM 将正确答案标记为过时并生成虚构的最新但不正确的答案,从而误导模型生成针对性的虚假内容。上述攻击方法非常有效。为了评估我们的防御,我们选择了具有代表性的攻击来模拟真实的 RAG 投毒场景。

**RAG 的鲁棒性**。为了防御上述针对检索的投毒攻击,TrustRAG (Zhou et al., 2025 (https://arxiv.org/html/2607.00012#bib.bib38)) 引入了一种两阶段防御机制,利用被投毒文本的语义特征和 LLM 的内在知识,有效缓解了单点和多语料注入攻击。INSTRUCTRAG (Wei et al., 2024 (https://arxiv.org/html/2607.00012#bib.bib28)) 被设计为显式学习如何对检索内容进行去噪,从而处理被投毒或不相关的信息。SELF-RAG (Asai et al., 2024 (https://arxiv.org/html/2607.00012#bib.bib2)) 提出了一种框架,通过在 LLM 内部进行自我反思机制来提高生成质量和事实准确性。RAGForensics (Zhang et al., 2025b (https://arxiv.org/html/2607.00012#bib.bib36)) 采用迭代检索机制,将 LLM 与精心设计的思维链提示相结合,对候选检索文本进行逐轮判断和过滤。RAGuard (Cheng et al., 2025 (https://arxiv.org/html/2607.00012#bib.bib7)) 集成了基于块级困惑度和文本相似度的两阶段过滤机制,能够有效识别并从检索结果中移除恶意被投毒内容。其他策略包括精心设计的提示 (Cho et al., 2023 (https://arxiv.org/html/2607.00012#bib.bib9); Press et al., 2023 (https://arxiv.org/html/2607.00012#bib.bib22))、插件模型架构 (Baek et al., 2023 (https://arxiv.org/html/2607.00012#bib.bib3)) 和专门构建的专用模型 (Yoran et al., 2023 (https://arxiv.org/html/2607.00012#bib.bib34))。然而,这些防御策略缺乏定量的鲁棒性评估和对 RAG 系统的理论保证。RobustRAG (Xiang et al., 2024 (https://arxiv.org/html/2607.00012#bib.bib29)) 通过使用多个 LLM 和投票机制来过滤被投毒内容,从而增强 RAG 鲁棒性,提供了理论保证,但代价是显著的计算开销和具有挑战性的输出聚合。我们提出了一种可证明鲁棒的 RAG 算法,该算法定量评估鲁棒性,并提供了针对投毒攻击的强大经验性防御。

**图 1 说明**:PRA-RAG 针对被投毒检索的流程。

## 3 预备知识

### 3.1 威胁模型

我们研究针对 RAG 系统的**检索破坏**攻击,其中对手投毒外部语料库,使得检索到的上下文引导生成器输出攻击者选择的结果。我们首先说明系统和符号,然后阐述攻击者的目标和能力。

#### 系统和符号。

令 \(\mathcal{D}\) 表示语料库,\(\mathcal{R}\) 表示检索器,对于查询 \(q\) 返回 Top-\(K\) 段落,记为 \(\mathcal{X}_K(q;\mathcal{D}) = \{p_1, \ldots, p_K\}\)。在投毒情况下,对手将一组段落 \(\Gamma\) 注入语料库,得到 \(\mathcal{D}' = \mathcal{D} \cup \Gamma\)。相应的检索集为 \(\mathcal{X}_K'(q) = \mathcal{X}_K(q;\mathcal{D}')\),其中 \(\varepsilon = \mathcal{X}_K'(q) \cap \Gamma\) 且 \(\mathcal{X}_K'(q) = \{\tilde{p}_1, \ldots, \tilde{p}_\varepsilon\} \cup \{p_1, \ldots, p_{K-\varepsilon}\}\)。我们用 \(n\) 表示我们机制中的子集大小。

#### 攻击者的目标。

攻击者选择一组目标查询 \(Q = \{q_1, \ldots, q_M\}\) 以及相应的目标答案 \(A = \{a_1, \ldots, a_M\}\)。目标是投毒语料库,使得对于每个 \(q_i \in Q\),当使用来自受污染语料库 \(\mathcal{D}'\) 的检索上下文时,RAG 系统生成攻击者指定的答案 \(a_i\)。例如,给定查询 \(q_i\):“最高山峰的名字是什么?”,攻击者试图使系统输出错误响应“富士山”。

#### 攻击者的能力。

我们考虑一个对手,能够向外部语料库注入一组恶意段落 \(\Gamma = \{\tilde{p}_j^i \mid i=1,\ldots,M; \ j=1,\ldots,N\}\)(例如,通过在维基百科等开放平台上发布内容,或通过聚合第三方内容的数据供应商)。攻击者不了解 LLM 的参数或解码过程,但假定对检索器有白盒了解,因为许多检索器(例如 Contriever (Izacard et al., 2021 (https://arxiv.org/html/2607.00012#bib.bib13))、ANCE (Xiong et al., 2020 (https://arxiv.org/html/2607.00012#bib.bib30)))是公开可用的。我们不假定干净段落和被投毒段落之间存在严格的几何可分性。我们的方法的鲁棒性与分布无关,并且仅依赖于以下条件。

相似文章

为什么检索增强生成会失败:图视角

arXiv cs.CL

本文探讨了检索增强生成(RAG)系统即使在获取到正确证据的情况下仍然失败的原因。通过电路追踪和归因图,作者发现正确的预测展现出更深的推理路径和更分散的证据流,而失败则表现为浅层、碎片化的模式。他们提出了一个基于图的错误检测框架和有针对性的干预措施,以提高RAG的可靠性。