语言模型真的能进行上下文检索吗?在百万token规模的文档中挣扎
摘要
本文系统研究了百万token规模下的上下文检索,介绍了BlockSearch——一个0.6B参数的语言模型检索器,并分析了注意力稀释现象。该模型在MS MARCO和NQ等基准测试上达到或超越了密集检索的性能,并在需要不同相似性概念的任务上显著优于密集检索,突显了上下文检索的潜力,同时强调了在极端上下文增长下注意力控制的重要性。
arXiv:2607.01538v1 公告类型:新
摘要:语言模型(LM)为基于向量的检索提供了一种有趣的替代方案:在上下文中对语料库进行条件化,并直接生成相关答案。然而,先前的工作主要集中于专有系统或小规模的重新排序任务,使得语料库级别的上下文检索在很大程度上未被探索。在这项工作中,我们首次系统研究了两个实际检索器所需规模的上下文检索:百万token的语料库和远超训练时规模的长度泛化。我们首先介绍了BlockSearch,一个0.6B参数的语言模型检索器,其架构和训练修改优于之前的LM基线,并且长度泛化能力超出其训练范围10倍。尽管如此,在更极端的外推情况下,检索仍然会崩溃。我们将这种失败追溯到注意力稀释效应:随着语料库的增长,无关文档主导了softmax的分母,即使黄金文档的预softmax得分仍然很高,其归一化质量也会降低。基于这一分析,我们引入了对注意力softmax的感知长度调整和文档级稀疏注意力。通过这些修改,在百万token规模下,我们的模型在广泛研究的基准测试(例如MS MARCO和NQ)上匹配了密集检索,同时在比同期模型MSA小7倍的情况下性能更优。此外,在需要完全不同相似性概念的任务(如LIMIT)上,它显著优于密集检索,得分高出3倍。综合来看,我们的结果将上下文检索定位为经典检索的有前途的替代方案,同时强调在极端上下文增长下的注意力控制是一个新的挑战。
查看缓存全文
缓存时间: 2026/07/03 05:40
# 语言模型真的能进行上下文检索吗?——百万 Token 规模下淹没在文档中 来源:https://arxiv.org/abs/2607.01538 查看 PDF(https://arxiv.org/pdf/2607.01538) > 摘要:语言模型(LMs)为传统的基于向量的检索提供了一个引人注目的替代方案:基于上下文语料库进行条件化,并直接生成相关答案。然而,先前的工作主要聚焦于专有系统或较小规模的重排序任务,导致语料库规模的上下文检索在很大程度上尚未被探索。在这项工作中,我们首次对两种实际检索器所需规模下的上下文检索进行了系统研究:百万 Token 语料库以及远超出训练时大小的长度泛化。我们首先提出了 BlockSearch,一个 0.6B 参数的语言模型检索器,其架构和训练上的改进超越了先前的语言模型基线,并能在训练范围之外实现高达 10 倍的长度泛化。尽管如此,在更极端的推广泛化下,检索仍然会崩溃。我们将这一失败归因于注意力稀释效应:随着语料库的增长,不相关的文档主导了 softmax 分母,即使黄金文档的 softmax 前得分仍然很高,其归一化质量也会下降。受此分析启发,我们引入了注意力 softmax 的长度感知调整以及文档级的稀疏注意力。通过这些修改,在百万 Token 规模下,我们的模型在广泛研究的基准(如 MS MARCO 和 NQ)上匹配了密集检索,同时比同期模型 MSA 性能更优,尽管模型大小仅为其七分之一。此外,在需要完全不同相似性概念的任务(如 LIMIT)上,我们的模型显著优于密集检索,得分提高了三倍。综上所述,我们的结果将上下文检索定位为经典检索的一个有前途的替代方案,同时强调了在极端上下文增长下控制注意力成为一个新的挑战。 ## 提交历史 来自:Siddharth Gollapudi \[查看电子邮件(https://arxiv.org/show-email/f1ac6a9f/2607.01538)\] **\[v1\]** 2026年7月1日星期三 23:38:25 UTC(46 KB)
相似文章
@samhogan:顺便提一句,RLM 基本已解决上下文问题。你只需将上千万个 token 投入一个成熟的 RLM 框架中,它就能直接跑通……
一位开发者分享了使用 RLM 的实践经验,表示其能够有效承载高达数千万 token 的超长上下文窗口,这标志着上下文处理能力实现了显著跨越。
@liquidai: 介绍 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M:两款为超快且精准的多语言检索模型
Liquid AI 推出 LFM2.5-Embedding-350M 和 LFM2.5-ColBERT-350M,这两款多语言检索模型经过优化,可在11种语言中实现快速准确的搜索,延迟低至1.5毫秒。
理解环境感知信息检索的行为
本文首次系统分析了大型语言模型如何通过强化学习学习适应不同检索器的查询制定策略,揭示了不同的最优查询风格,并引入了一种基于分支的展开技术以提高多检索步训练稳定性。
@Pavel_Izmailov: 新论文:潜在上下文语言模型(LCLMs)!思想:将16个token编码为1个潜在token,让LLM处理t…
介绍潜在上下文语言模型(LCLMs),该模型将16个token编码为1个潜在token,以提高性能、速度和内存使用。
DeepSeek-V4:百万Token上下文,真正可供智能体使用
DeepSeek发布V4,这是一款MoE模型,拥有100万Token上下文窗口,通过混合注意力机制和降低KV缓存需求,针对智能体任务进行了优化。