迷失于单一向量:通过分块证据聚合改进长文档检索

arXiv cs.CL 论文

摘要

本文识别出长文档稠密检索中的文档侧早期压缩这一失败模式,并引入证据稀释指数(EDI)来衡量该问题。作者提出DICE,一种无需训练的方法,将文档分割成块,独立编码,然后聚合为单一向量,显著改进了长文档的检索效果。

arXiv:2606.18781v1 公告类型:新 摘要:稠密检索将一个查询向量与一个文档向量进行排名。在长文档中,当排名前文档编码过程中将短而关键的信息削弱时,该界面可能会失败。我们研究这种失败模式作为文档侧早期压缩,并引入证据稀释指数(EDI)来衡量文档级表示低于同一黄金文档中最强的块级证据的程度。在此观点的指导下,我们提出了DICE(通过块证据进行文档推理),一种无需训练的文档侧策略,将文档分割成块,使用冻结模型独立编码,然后聚合回单个向量,同时保留标准的一查询一文档界面。在LongEmbed上,DICE在四个主干上改进了检索,最大的改进出现在超过4k令牌的切片上:对于Dream,超过4k的Passkey从30.0上升到90.0,超过4k的Needle从23.3上升到74.0。在12,779个过滤样本中,DICE在92.8%的情况下比单一向量基线产生更低的EDI。这些结果确立文档级编码作为长文档检索的一个实用且尚未充分探索的杠杆。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:46

# 迷失在单一向量中:通过分块证据聚合改进长文档检索  
来源:https://arxiv.org/html/2606.18781  
Shanshan Lyu1,2,3††感谢:主要工作在中国科学院计算技术研究所作为访问学生完成;目前为重庆大学学生。††感谢:作者来自2,3单位,同时隶属于中国科学院大学。Yiwei Wang4Yujun Cai5Jiafeng Guo2,322footnotemark:2Shenghua Liu2,322footnotemark:2††感谢:通讯作者。  
1重庆大学  
2人工智能安全国家重点实验室  
3中国科学院计算技术研究所  
4加州大学默塞德分校  
5昆士兰大学  
shanshanlyu@stu\.cqu\.edu\.cn,\{guojiafeng, liushenghua\}@ict\.ac\.cn  

###### 摘要  
密集检索将一个查询向量与一个文档向量进行排序。在长文档上,当排序前,一个简短但决定性的片段在文档编码过程中被削弱时,这种接口可能失败。我们将这种失败模式称为*文档端早期压缩*,并引入证据稀释指数(EDI)来衡量文档级表示与其所属黄金文档中最强分块级证据之间的差距。基于这一观点,我们提出DICE(Document Inference via Chunk Evidence,通过分块证据进行文档推理),一种无需训练的文档端策略:将文档分割为分块,使用冻结模型独立编码,然后聚合回单一向量,同时保留标准的一查询一文档接口。在LongEmbed上,DICE在四个骨干网络上提升了检索性能,最大收益出现在超过4k令牌的分片中:对于Dream,Passkey>>4k从30.0提升至90.0,Needle>>4k从23.3提升至74.0。在12,779个过滤样本中,DICE在92.8%的情况下产生了比单一向量基线更低的EDI。这些结果确立了文档端编码作为长文档检索中一个实用且尚未充分探索的杠杆。我们的代码可在https://github.com/PunchlineAAAA/DICE获取。

迷失在单一向量中:通过分块证据聚合改进长文档检索  
Shanshan Lyu1,2,3††感谢:主要工作在中国科学院计算技术研究所作为访问学生完成;目前为重庆大学学生。††感谢:作者来自2,3单位,同时隶属于中国科学院大学。Yiwei Wang4Yujun Cai5Jiafeng Guo2,322footnotemark:2Shenghua Liu2,322footnotemark:2††感谢:通讯作者。  
1重庆大学  
2人工智能安全国家重点实验室  
3中国科学院计算技术研究所  
4加州大学默塞德分校  
5昆士兰大学  
shanshanlyu@stu\.cqu\.edu\.cn,\{guojiafeng, liushenghua\}@ict\.ac\.cn  

## 1 引言  
检索系统日益被要求从会议记录、法律文件、叙事文本等长文档中寻找答案,其中决定性证据可能仅占据数千个无关词元中的少数几个句子。密集检索通过将每个文档编码为单一向量,然后按查询-文档相似度排序来处理这一问题。该接口简单且可扩展到数十亿文档,但它造成了一个表示瓶颈:一个向量必须总结整个文档,即使相关性只取决于一个短小的局部片段。  
这一瓶颈不仅仅是容量问题。现代编码器通常支持4k–32k令牌的上下文窗口,但检索质量在长文档上仍然下降(Zhu等人,2024 (https://arxiv.org/html/2606.18781#bib.bib28)),且模型系统性地未能充分利用远离显著位置的信息(Liu等人,2024 (https://arxiv.org/html/2606.18781#bib.bib17))。根本原因在于表示层面:当查询由嵌入在长文档中的少量决定性句子解出时,对整个文档进行编码会在任何查询比较之前,将相关证据与大量无关上下文一起压缩。我们将这种失败模式称为**文档端早期压缩**。如图1 (https://arxiv.org/html/2606.18781#S1.F1)所示,黄金文档可能包含答案相关的片段,但仍然获得较弱的文档级分数,因为证据在检索发生之前就被稀释了。  

引用图注  
图1:一个动机性长文档检索案例。黄金文档包含决定性局部片段,但单一向量编码对其排名不足,因为证据在检索前已被稀释。  
引用图注  
图2:DICE概述。仅文档端发生变化:分块使用局部位置独立编码,然后聚合成一个向量。查询路径和检索接口保持不变。  

这种失败模式在标准单一向量接口内难以解决,同样也难以直接衡量。检索质量随上下文长度下降(Zhu等人,2024 (https://arxiv.org/html/2606.18781#bib.bib28)),但这种下降混淆了多种因素,未能隔离文档端压缩的贡献。更直接解决该问题的方法,如段落检索和延迟交互评分(Khattab和Zaharia,2020 (https://arxiv.org/html/2606.18781#bib.bib12);Santhanam等人,2022 (https://arxiv.org/html/2606.18781#bib.bib21)),则通过改变检索单元或评分接口来实现。这使得文档编码端成为一个实用且尚未充分探索的自由度。  
我们采取两个步骤来利用它。首先,我们引入**证据稀释指数**(EDI),这是一种每个样本的诊断指标,将文档级相似度分数与同一黄金文档中最强的分块级证据进行比较,将早期压缩从一种直觉转化为可测量的属性。其次,受此诊断指导,我们提出DICE(Document Inference via Chunk Evidence,通过分块证据的文档推理),一种无需训练的策略:将文档分割为分块,使用局部位置索引独立编码每个分块,然后将得到的嵌入聚合回单一文档向量(图2 (https://arxiv.org/html/2606.18781#S1.F2))。查询编码保持不变,因此检索接口仍然是标准的一查询一文档检索。  
我们在LongEmbed(Zhu等人,2024 (https://arxiv.org/html/2606.18781#bib.bib28))上评估DICE,涵盖四个骨干网络,包括扩散(Dream)和自回归(Mistral(Jiang等人,2023 (https://arxiv.org/html/2606.18781#bib.bib10))、Llama3(Grattafiori等人,2024 (https://arxiv.org/html/2606.18781#bib.bib6))、Qwen(Yang等人,2024 (https://arxiv.org/html/2606.18781#bib.bib25)))架构。DICE持续优于单一向量基线,最大收益出现在最难的长上下文分片中:对于Dream,Passkey>>4k从30.0提升至90.0,Needle>>4k从23.3提升至74.0。消融实验确定了分块粒度是关键设计因素,EDI分析解释了机制:在12,779个过滤样本中,DICE在92.8%的情况下产生了比单一向量基线更低的EDI。FollowIR(Weller等人,2024 (https://arxiv.org/html/2606.18781#bib.bib23))提供了超越显式长文档基准的额外迁移证据,尽管最佳分块配置依赖于任务。  
我们的贡献是:  
- • 我们识别了文档端早期压缩作为长文档密集检索中的一种失败模式,并引入EDI来量化它。  
- • 我们提出DICE,一种无需训练的文档端补救措施,保留了标准的一查询一文档检索接口。  
- • 在四个骨干网络和两个基准上,我们展示了DICE改进了长文档检索,并且这些改进与系统性地降低证据稀释相吻合。  

## 2 长文档检索中的证据稀释  
### 2.1 文档端早期压缩  
当相关性局部化时,单一向量文档编码会失败。给定一个查询\(q\)和一个长文档\(d\),密集检索编码器\(f(\cdot)\)必须在检索开始前将整个文档压缩成一个向量。文档随后按余弦相似度排序:
\[ s(q,d) = \operatorname{sim}(f(q),f(d)), \quad \mathbf{d}_{\mathrm{single}} = f(d). \tag{1} \]
当\(d\)包含一个短证据片段\(e\)嵌入在大量非相关上下文\(c\)中时,编码\(f(e,c)\)会在计算相似度分数之前被拉离决定性证据的表示。文档可能包含答案但仍然排名较差,因为文档级向量未能充分表示实际解决查询的短局部片段。  
现代编码器通常处理4k–32k令牌,因此这主要不是上下文窗口容量的失败。相反,它是表示的失败:\(\mathbf{d}_{\mathrm{single}}\)可能在嵌入空间中远离查询,即使黄金文档包含答案相关的证据。图1 (https://arxiv.org/html/2606.18781#S1.F1)提供了动机性直觉。因此,分析性问题不仅仅是文档中是否存在相关证据,而是单一向量压缩是否足够强地保留了该证据以影响排序。  

### 2.2 从局部证据到EDI  
为了使这种失败模式可测量,我们将文档级表示与同一黄金文档内的分块级证据进行比较。对于一个分割成\(M\)个分块的黄金文档,设\(a_j\)为查询-分块相似度,\(m = \max_j a_j\)为最强的局部证据,\(\bar{a}\)为平均分块相似度。这里最大分块分数仅作为分析用的局部证据预言机,并非作为部署等价基线。  

**证据集中度(EC)**:
\[ \text{EC} = \dfrac{m - \bar{a}}{|m| + \epsilon}. \]  
EC捕捉查询相关性是否集中于少量分块(高EC)还是更均匀地分布于整个文档(低EC)。这告诉我们一个样本是否在结构上容易受到证据稀释的影响。  

**证据稀释指数(EDI)**:
\[ \text{EDI}(E) = \dfrac{m - s_E}{m - \bar{a} + \epsilon}, \]  
其中\(s_E = \text{sim}(q,\mathbf{d}_E)\)是在编码方法\(E\)下的文档级相似度分数。EDI衡量文档向量与最强分块级证据之间的差距。较低的EDI表示文档表示更接近最相关的局部片段;负的EDI表示文档向量通过整合多个分块的信号超过了单分块预言机。  
两个指标都使用证据边缘\(m - \bar{a}\)作为归一化因子。当该边缘接近零时,比率可能变得不稳定;这最常发生在几乎所有分块与查询无关的合成设置中。因此,我们过滤\(m - \bar{a} < 0.01\)的样本,并在整个分析中报告中位数统计量。  

### 2.3 对文档编码的启示  
这个框架将早期压缩从直觉转变为具体的设计目标。如果单个文档向量系统性地低于最强分块级证据,那么自然的补救措施是延迟压缩:先保留局部证据,然后再聚合。DICE正是遵循这一策略。它不改变查询编码器或检索接口,只改变文档向量的构建方式,使得决定性局部证据在排序前不太可能被淹没。  

## 3 方法  
受第2节 (https://arxiv.org/html/2606.18781#S2)中证据稀释框架的指导,我们现在描述DICE。  

### 3.1 DICE文档编码  
DICE在文档编码阶段解决问题。关键思想是延迟压缩:不是一次性编码整个文档,而是分块编码,然后聚合。  

#### 分块。  
给定一个文档\(d\),我们将其分词,然后将令牌序列分割成大小为\(k\)、可选重叠为\(o\)的分块。分割在令牌空间内进行,保留令牌标识和边界。除非另有说明,我们使用无重叠分块(\(o=0\)),并变化\(k\)以研究分块粒度。  

#### 局部位置编码。  
每个分块\(d^{(j)}\)由冻结编码器\(f\)独立编码。位置索引在每个分块内重设为从零开始,而不是继承自原始文档:
\[ \mathbf{h}_j = f(\mathbf{x}^{(j)}, \mathbf{p}^{(j)}), \tag{2} \]  
其中\(\mathbf{x}^{(j)}\)是分块\(d^{(j)}\)的令牌ID,\(\mathbf{p}^{(j)}\)是从每个分块内从零开始的局部位置序列。局部位置确保每个分块作为一个自包含的上下文窗口处理,不受其在源文档中偏移的影响。  
查询编码保持不变,因为我们的目标是隔离文档端压缩:查询相对于文档较短,因此对它们进行分块会增加查询端的复杂性,同时改变我们试图保留的检索接口。  

#### 聚合。  
分块嵌入通过一个与查询无关的聚合函数\(g\)融合成一个文档向量:
\[ \mathbf{d}_{\textsc{DICE}} = g(\mathbf{h}_1, \mathbf{h}_2, \ldots, \mathbf{h}_m). \tag{3} \]  
聚合在查询到达之前进行,因此不能使用查询-分块交互。因此,我们专注于一个小的简单、查询无关的池化规则家族,涵盖此设置中的主要设计选择:等权保留所有分块、强调高激活分块、或仅选择部分分块。具体地,我们研究均值池化、最大池化和基于嵌入范数的top-k池化。默认策略是均值池化:
\[ g_{\mathrm{mean}} = \frac{1}{m} \sum_{j=1}^m \mathbf{h}_j, \]  
它等权保留每个分块的证据。最大池化\(g_{\mathrm{max}}\)测试了一种更具选择性的变体,取分块间的逐元素最大值。基于范数的变体使用\(\|\mathbf{h}_j\|_2\)作为与查询无关的分块显著性代理:\(g_{\mathrm{topk}}\)平均了top-k个最高范数的分块。所有变体均是查询无关的,并在第4.3节 (https://arxiv.org/html/2606.18781#S4.SS3.SSS0.Px2)中作为消融实验进行评估。  

#### 检索接口。  
聚合后,检索与单一向量基线完全相同:
\[ s(q,d) = \operatorname{sim}(f(q), \mathbf{d}_{\textsc{DICE}}). \]  
DICE不检索分块、不增加语料库条目数、也不添加第二阶段评分器。改动完全在文档编码端,排序的任何差异仅来自文档表示。  

## 4 实验  
### 4.1 设置  
#### 任务与指标。  
我们的主要基准是LongEmbed(Zhu等人,2024 (https://arxiv.org/html/2606.18781#bib.bib28)),包含两个合成任务Passkey和Needle,以及四个真实检索任务NarrativeQA、QMSum、SummScreenFD和WikiMQA。我们报告Passkey和Needle的Hit@1(%),分为最多4k令牌和超过4k令牌的上下文。对真实任务报告nDCG@10。分片指标是相应LongEmbed长度分片的宏观平均值。所有评估使用MTEB框架(Muennighoff等人,2023 (https://arxiv.org/html/2606.18781#bib.bib19))。  
我们还在FollowIR(Weller等人,2024 (https://arxiv.org/html/2606.18781#bib.bib23))(News21InstructionRetrieval、Core17InstructionRetrieval、Robust04InstructionRetrieval)上评估Dream,使用News21的nDCG@5和Core17与Robust04的MAP@1000,以及p-MRR作为辅助指标。  

#### 比较范围。  
我们的主要比较集中于*部署等价*

相似文章

@vintcessun: RAG喂太多文档,检索质量反而从75%掉到40%?向量搜索被大量无关内容稀释,真实部署中命中率暴跌。 问题根源:异构文档混在一起检索,噪声淹没了信号。多智能体编排看似智能,实际引入精度-忠实度悖论——配置稍差就两头不讨好。 论文提出的MA…

X AI KOLs Timeline

This paper identifies 'vector search dilution' in RAG systems when scaling to large heterogeneous document collections, where accuracy dropped from 75% to 40% in a real-world deployment. The proposed MASDR-RAG method uses domain scoping via organizational metadata before retrieval, improving P@10 from 0.77 to 0.86 with low cost and easy deployment.

CHOP: 多文档RAG的分块式上下文保留框架

arXiv cs.CL

CHOP是一个通过使用上下文感知元数据和基于大语言模型的分块相关性评估来改进多文档检索RAG系统的框架,可以减少语义冲突和幻觉现象。该方法通过智能分块和上下文保留策略实现了90.77%的Top-1命中率。