当更多文档损害RAG:通过领域限定、模型无关的检索缓解向量搜索稀释

arXiv cs.CL 论文

摘要

本文识别了RAG系统在扩展到大规模异构文档集合时出现的“向量搜索稀释”现象,并提出MASDR-RAG,一种利用组织元数据进行领域限定的检索方法,显著提升了检索准确率。

arXiv:2606.11350v1 公告类型:新 摘要:检索增强生成在扩展到大规模异构文档集合时性能下降,此时密集相似度的判别能力减弱,top-k检索返回的片段虽语义相似但在上下文上不正确。我们将这种故障模式称为向量搜索稀释。即使使用混合密集+稀疏检索,我们在部署的怀俄明州交通部语料库中也直接观察到了这一点——文档数量从54份扩展到1,128份(88,907个片段)时,准确率从75%降至40%以下。为解决这种稀释问题,我们提出了MASDR-RAG(用于RAG的多智能体领域限定检索),并在200个专家验证的查询上进行了评估,涵盖了五种LLM主干、六个语料库和两个索引栈。我们的结果表明,使用组织元数据进行领域限定是关键修复手段,显著将P@10从0.77提高到0.86($p < 0.05$)。此外,我们对多智能体编排的研究发现,这会导致高度的配置依赖性——从而产生我们称之为“精度-忠实度悖论”的现象。基于这些不同的结果,我们的实际建议很简单:先限定领域,然后执行一次合成调用,将完整的多智能体编排保留给真正多领域的语料库,并搭配原生工具调用主干。代码和数据将在接收后公开。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:36

# 更多文档反而损害RAG:使用领域范围限定、模型无关的检索缓解向量搜索稀释

来源:https://arxiv.org/html/2606.11350

Nabaraj Subedi1∗,Ahmed Abdelaty2,以及Shivanand Venkanna Sheshappanavar1  
1电气工程与计算机科学系 2土木、建筑工程与管理系  
怀俄明大学,拉勒米,WY 82071,美国  
{nsubedi1, aahmed3, ssheshap}@uwyo.edu  
∗通讯作者

###### 摘要

当检索增强生成扩展到大规模、异构文档集合时,其性能会下降。此时,稠密相似性失去判别力,top-k检索越来越多地返回语义相似但上下文错误的片段。我们将这种失败模式称为**向量搜索稀释**。即使使用混合稠密+稀疏检索,我们在部署的怀俄明州交通部语料库中也直接观察到了这一点:文档数量从54份扩展到1128份(88907个片段)时,准确率从75%降至40%以下。为了解决这种稀释问题,我们提出了MASDR-RAG(面向RAG的多智能体限定领域检索),并在200个经过专家验证的查询上进行了评估,涉及五个LLM骨干模型、六个语料库和两个索引栈。我们的结果表明,**使用组织元数据进行领域范围限定是关键修复手段**,将P@10从0.77显著提升至0.86(p<0.05)。此外,我们对多智能体编排的调查揭示,其高度依赖配置——造成了我们称之为**精确性-忠实性悖论**的现象。基于这些不同的结果,我们的实用建议很简单:**先限定范围,然后执行单次合成调用**,仅对真正的多领域语料库配合原生工具调用骨干模型使用完整的多智能体编排。代码和数据将在论文被接收后公开。

更多文档反而损害RAG:使用领域范围限定、模型无关的检索缓解向量搜索稀释

Nabaraj Subedi1∗,Ahmed Abdelaty2,以及Shivanand Venkanna Sheshappanavar1  
1电气工程与计算机科学系 2土木、建筑工程与管理系  
怀俄明大学,拉勒米,WY 82071,美国  
{nsubedi1, aahmed3, ssheshap}@uwyo.edu  
∗通讯作者

## 1 引言

检索增强生成已成为将LLM输出锚定于外部知识的主导范式(Lewis等人,2020 (https://arxiv.org/html/2606.11350#bib.bib1);Guu等人,2020 (https://arxiv.org/html/2606.11350#bib.bib2);Gao等人,2024 (https://arxiv.org/html/2606.11350#bib.bib3))。然而,标准的嵌入-索引-检索-生成流水线在覆盖数千份异构文档的受监管企业语料库上扩展性不佳(Barnett等人,2024 (https://arxiv.org/html/2606.11350#bib.bib4);Wu等人,2025 (https://arxiv.org/html/2606.11350#bib.bib5))。随着语料库跨异构类别扩展,稠密检索会失去判别力。即使近似最近邻索引返回了真实的最近邻(Malkov和Yashunin,2020 (https://arxiv.org/html/2606.11350#bib.bib15);Johnson等人,2021 (https://arxiv.org/html/2606.11350#bib.bib16)),这种效应依然存在:这些近邻在语义上与查询相关,但在语境上无关。

我们识别并刻画了**向量搜索稀释**这一**语义**扩展问题。我们在当前的怀俄明州交通部聊天机器人中研究了这个问题:将语料库从54份文档扩展到横跨九个类别的1128份文档,使得标准规范查询的准确率从75%降至40%以下。为了解决这个问题,我们开发了一个领域范围限定检索框架MASDR-RAG,以及一个轻量级单次调用变体Hybrid-Routed。

我们的实验涵盖了五个LLM骨干模型(Qwen2.5-7B-Instruct(Qwen团队,2024 (https://arxiv.org/html/2606.11350#bib.bib39))、Llama-3-8B-Instruct(Grattafiori等人,2024 (https://arxiv.org/html/2606.11350#bib.bib40))以及通过OpenRouter使用的三个商业骨干模型(Claude-Haiku-4.5、GPT-5-mini、DeepSeek-V3))、六个语料库(EnterpriseComposite-9、HotpotQA-distractor(Yang等人,2018 (https://arxiv.org/html/2606.11350#bib.bib34))、MULTIHOP-RAG(Tang和Yang,2024 (https://arxiv.org/html/2606.11350#bib.bib35))、NQ-Open、FinanceBench和MMLU-Pro)以及两个索引栈(FAISS和Neo4j HNSW)。结果确定,对组织元数据进行领域范围限定是提升检索性能的主要驱动力。相比之下,多智能体编排产生依赖配置的结果。在使用Gemini生产栈时,它将RAGAS忠实性从0.61降至0.35(p<0.01),造成了我们所谓的精确性-忠实性悖论。然而,在开源栈的对等比较中,这种效应并未复现。通过受控消融实验,我们进一步表明,这种退化并不仅仅是将检索拆分为多次调用的结果。相反,它源于当检索到的证据包含密集、近乎重复的段落时,难以综合多个来源的答案。这些发现指向大规模RAG系统的实用设计原则:首先限定检索范围,并在可能的情况下使用单步合成。我们的贡献有三点:

1. **诊断**:我们形式化定义了**向量搜索稀释**,并刻画了检索质量如何随语料库密度增加而退化。
2. **架构与分析**:我们引入了多智能体检索框架MASDR-RAG和轻量级变体Hybrid-Routed,并通过受控消融实验隔离了合成失败的原因。
3. **泛化能力**:我们在五个LLM、六个语料库和两个检索栈上进行了评估,表明这些发现跨模型和索引实现是稳健的,同时相对于迭代式ReAct风格基线降低了成本。

## 2 相关工作

#### RAG与稠密检索。

RAG(Lewis等人,2020 (https://arxiv.org/html/2606.11350#bib.bib1))将生成器与检索器配对,并通过查询转换、重排序和迭代检索而发展(Gao等人,2024 (https://arxiv.org/html/2606.11350#bib.bib3));**智能体**变体(Singh等人,2025 (https://arxiv.org/html/2606.11350#bib.bib31))允许模型自行决定何时检索。稠密双编码器(Karpukhin等人,2020 (https://arxiv.org/html/2606.11350#bib.bib12))和延迟交互模型(Khattab和Zaharia,2020 (https://arxiv.org/html/2606.11350#bib.bib43);Santhanam等人,2022 (https://arxiv.org/html/2606.11350#bib.bib44))在很大程度上取代了稀疏检索(Robertson和Zaragoza,2009 (https://arxiv.org/html/2606.11350#bib.bib14)),而混合方案(Sawarkar等人,2024 (https://arxiv.org/html/2606.11350#bib.bib18))在多领域语料库上保持竞争力。索引扩展通常从**算法**角度通过近似最近邻来框定(Malkov和Yashunin,2020 (https://arxiv.org/html/2606.11350#bib.bib15);Johnson等人,2021 (https://arxiv.org/html/2606.11350#bib.bib16));我们则聚焦于一种互补的**语义**退化。先前的工作表明,随着索引增长,稠密检索会失去判别力(Reimers和Gurevych,2021 (https://arxiv.org/html/2606.11350#bib.bib59)),不相关的段落会改变生成结果(Cuconasu等人,2024 (https://arxiv.org/html/2606.11350#bib.bib60)),长上下文会引入噪声(Jin等人,2025 (https://arxiv.org/html/2606.11350#bib.bib61))。我们认同这一诊断,但贡献了一个**无需检索、语料库内在的**度量(稀释因子δ,第3节 (https://arxiv.org/html/2606.11350#S3))以及一个可部署的修复方案,并通过评估BM25和ColBERTv2(第6节 (https://arxiv.org/html/2606.11350#S6))确认该问题并非稠密检索特有。

#### 查询路由与多智能体系统。

先前有两类工作为我们的领域范围限定方法提供了背景。**策略路由**(Jeong等人,2024 (https://arxiv.org/html/2606.11350#bib.bib19);Zhang等人,2025 (https://arxiv.org/html/2606.11350#bib.bib20);Guo等人,2025 (https://arxiv.org/html/2606.11350#bib.bib21))为每个查询选择检索的**深度**或整个**流水线**——决定何时以及以多大力度检索,而非在何处检索。**元数据过滤**(Poliakov等人,2024 (https://arxiv.org/html/2606.11350#bib.bib22))在索引整个语料库后,事后掩盖候选结果。我们的范围限定是正交的:我们将查询路由到文档图中作为一等字段(source_type、document_series、article_category)存在的K个**预定义组织范围**之一,在查询时限制索引,而非事后过滤。我们训练的R2-Routed变体(附录A.33 (https://arxiv.org/html/2606.11350#A33))表明,路由**目标**的选择与路由**模型**同样重要。

在编排方面,ReAct(Yao等人,2023 (https://arxiv.org/html/2606.11350#bib.bib23))和LangChain(Chase, 2023 (https://arxiv.org/html/2606.11350#bib.bib45))为工具使用提供了通用框架。**真正**的多智能体RAG通过智能体间消息传递分配不同角色:MA-RAG(Nguyen等人,2025 (https://arxiv.org/html/2606.11350#bib.bib27))链式调用任务特定智能体,SCOUT-RAG(Li等人,2026 (https://arxiv.org/html/2606.11350#bib.bib63))在图领域上运行协作的领域相关性和检索智能体。我们的MASDR-RAG故意更为简单——一个带有K个领域范围限定工具的**单一推理智能体**,其中每个“智能体”是一个范围限定的工具配置。我们将两种多智能体范式都作为基线包含在内(第8节 (https://arxiv.org/html/2606.11350#S8)),并表明,在使用商业生成器时,多轮编排会触发开源骨干模型上不存在的忠实性崩溃(表10 (https://arxiv.org/html/2606.11350#S10.T10))。

#### 重排序、迭代与图RAG:

两阶段流水线使用交叉编码器对双编码器top-K进行重排序(Nogueira等人,2020 (https://arxiv.org/html/2606.11350#bib.bib52));我们的消融实验(附录A.34 (https://arxiv.org/html/2606.11350#A34))表明,虽然交叉编码器重排序提升了基线忠实性,但它**并未**挽回多智能体崩溃,从而排除了范围内排序噪声是其唯一原因的可能性。学习型稀疏检索器如SPLADE(Formal等人,2022 (https://arxiv.org/html/2606.11350#bib.bib54))仍具竞争力;我们将OpenSearch神经稀疏模型(OpenSearch Project, 2024 (https://arxiv.org/html/2606.11350#bib.bib56))作为额外的检索器基线(第6节 (https://arxiv.org/html/2606.11350#S6))。迭代方法——IRCoT(Trivedi等人,2023 (https://arxiv.org/html/2606.11350#bib.bib48))、Self-Ask(Press等人,2023 (https://arxiv.org/html/2606.11350#bib.bib49))和Self-RAG(Asai等人,2024 (https://arxiv.org/html/2606.11350#bib.bib46))——共享ReAct的多轮循环,我们的效率分析表明,在开源骨干模型下,这些循环成本高昂。虽然Shi等人(2023 (https://arxiv.org/html/2606.11350#bib.bib47))指出LLM会被不相关的上下文分散注意力,但我们证明,零碎但领域精确的上下文同样有害。最后,与GraphRAG(Edge等人,2024 (https://arxiv.org/html/2606.11350#bib.bib28))不同,后者构建实体-关系图,我们则使用图的结构**组织元数据**作为明确的智能体边界。

#### 评估:

RAGAS(Es等人,2024 (https://arxiv.org/html/2606.11350#bib.bib32))衡量标准的检索质量和忠实性指标。然而,标准基准——如Natural Questions(Kwiatkowski等人,2019 (https://arxiv.org/html/2606.11350#bib.bib9))、HotpotQA(Yang等人,2018 (https://arxiv.org/html/2606.11350#bib.bib34))、MultiHop-RAG(Tang和Yang,2024 (https://arxiv.org/html/2606.11350#bib.bib35))以及长上下文套件(Yen等人,2025 (https://arxiv.org/html/2606.11350#bib.bib62))——依赖于同质或合成语料库。因此,它们未能捕捉到受监管企业环境中典型的跨领域稀释,这推动了本工作中引入的多领域评估框架。

## 3 向量搜索稀释

### 3.1 系统背景

语料库包含1128份文档,涵盖施工规范、设计手册、材料测试程序、碰撞报告、交通改善计划及行政报告,以Document→Section→Chunk的层级结构导入Neo4j。生产系统使用Gemini Embedding(768维)、HNSW和BM25全文索引。交通与碰撞报告占文档总数的1.9%,却贡献了34.8%的片段(表1 (https://arxiv.org/html/2606.11350#S3.T1))。

| 类别 | 文档数 | 片段数 | %片段 | 每文档片段数 |
| :--- | :--- | :--- | :--- | :--- |
| 标准规范 | 22 | 2,519 | 2.8 | 1,260 |
| 施工手册 | 21 | 6,641 | 7.5 | 316 |
| 材料测试 | 6 | 2,180 | 2.5 | 363 |
| 设计手册 | 23 | 1,405 | 1.6 | 61 |
| 交通与碰撞 | 22 | 30,922 | 34.8 | 1,406 |
| STIP | 59 | 13,634 | 15.3 | 231 |
| 年度报告 | 46 | 2,341 | 2.6 | 51 |
| 桥梁项目 | 28 | 5,399 | 6.1 | 193 |
| 其他 | 92 | 123,866 | 26.8 | 26 |
| **总计** | 1,128 | 88,907 | 100 | — |

表1:按字面document_series类别划分的文档和片段分布。智能体范围过滤器(附录A.11 (https://arxiv.org/html/2606.11350#A11))涵盖更广泛的相关系列联合,因此表13 (https://arxiv.org/html/2606.11350#A11.T13)中的各智能体计数超过此处各类别计数。各类别间片段密度差异达54倍。

### 3.2 形式化定义

令C = {c1, ..., cN}为N个片段,划分为K个类别C1, ..., CK,e: C → Rd为嵌入函数,q为针对类别k⋆的查询。top-m检索集为Rm(q) = arg max_{S⊆C, |S|=m} Σ_{c∈S} sim(e(q), e(c))。当全局精度远低于限定范围精度时,发生稀释:

δ(q, k⋆) = 1 - P_global(q) / P_scoped(q),

其中P_global(q)是检索集Rm(q)中属于目标类别k⋆的片段比例(当检索范围遍及整个C时),P_scoped(q)是相同比例(当检索限制在C_k⋆时,因此由构造可知P_scoped ≈ 1)。因此,δ=0表示无稀释,δ→1表示严重稀释。

### 3.3 实证测量

片段数量较少的类别遭受最严重的稀释(设计手册δ=0.53;标准规范δ=0.43),而高密度类别(施工手册δ=0.10)则基本抵抗稀释。在八个可限定范围的类别中,log(片段数)与平均δ之间的斯皮尔曼相关系数为ρ = −0.60(p=0.12)。由于n=8个类别,单个相关性仅具提示性,不能在统计上独立确定;我们在第9节 (https://arxiv.org/html/2606.11350#S9) 的可复现跨DOT复制中对其进行了佐证,在开源BGE-M3栈下,相同相关性的范围为ρ = −0.68(WYDOT,10个类别)至ρ = −0.95(CDOT,10个类别)。

表2:各类别稀释因子及每个查询的范围。  
参见图注  
图1:稀释δ与片段数的关系,八个WYDOT范围;斯皮尔曼ρ=−0.60(p=0.12)。  
限定范围检索:搜索空间缩减85%–98%  
用户查询 → 混合路由器(正则表达式→LLM)→ 编排器(函数调用)  
标准规范智能体 |C|≈2.5k  
施工手册智能体 |C|≈6.6k  
材料测试智能体...

相似文章

@vintcessun: RAG喂太多文档,检索质量反而从75%掉到40%?向量搜索被大量无关内容稀释,真实部署中命中率暴跌。 问题根源:异构文档混在一起检索,噪声淹没了信号。多智能体编排看似智能,实际引入精度-忠实度悖论——配置稍差就两头不讨好。 论文提出的MA…

X AI KOLs Timeline

This paper identifies 'vector search dilution' in RAG systems when scaling to large heterogeneous document collections, where accuracy dropped from 75% to 40% in a real-world deployment. The proposed MASDR-RAG method uses domain scoping via organizational metadata before retrieval, improving P@10 from 0.77 to 0.86 with low cost and easy deployment.

AgenticRAG:面向企业知识库的代理检索

arXiv cs.AI

本文介绍了 AgenticRAG,这是一个来自微软的框架,通过为大型语言模型(LLM)配备迭代搜索、文档导航和分析工具,增强了企业知识库的检索能力。它在多个基准测试中展示了相比标准 RAG 流水线在召回率和事实准确性方面的显著提升。

MM-BizRAG:重新思考面向通用企业问答的多模态检索增强生成

arXiv cs.CL

MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统,通过文档结构感知分割和版式感知解析,在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标,其与人类判断的对齐程度优于 RAGChecker,且成本更低。

RAG-Anything:全能型 RAG 框架

Papers with Code Trending

RAG-Anything 是一个全新的开源框架,通过整合跨模态关系和语义匹配来增强多模态知识检索,在复杂的基准测试中表现优于现有方法。