RL-Index: 强化学习的检索索引推理
摘要
RL-Index 提出了一种基于强化学习的智能索引框架,通过用LLM生成的解释来扩充文档,将推理从查询阶段转移到索引阶段,从而提升检索效果并降低在线延迟。
查看缓存全文
缓存时间: 2026/06/25 09:10
论文页面 - RL-Index:用于检索索引推理的强化学习
来源:https://huggingface.co/papers/2606.16316
摘要
RL-Index 提出了一种代理式索引框架,通过利用 LLM 生成的推理依据和强化学习,将推理从查询阶段转移到索引构建阶段,从而提升检索有效性并降低延迟。
在解决实际任务时,检索外部知识至关重要,但当查询与其相关知识之间的关系涉及隐式且复杂的推理(例如依赖同一数学定理的数学问题,或需要深度推理的编码任务),超出了表面语义或词汇匹配的范畴时,检索仍然具有挑战性。现有方法主要依赖于查询端推理(https://huggingface.co/papers?q=query-side%20reasoning)(例如查询重写),这会引入显著的在线延迟,并且未能充分利用对知识语料库本身进行推理(即 索引端推理(https://huggingface.co/papers?q=index-side%20reasoning))的机会。在本文中,我们提出了 RL-Index,一种代理式索引框架,将 检索索引推理(https://huggingface.co/papers?q=retrieval%20index%20reasoning) 形式化为一个 强化学习(https://huggingface.co/papers?q=reinforcement%20learning) 问题。RL-Index 并非在查询时进行推理,而是通过使用 LLM 生成的推理依据(https://huggingface.co/papers?q=LLM-generated%20rationales) 来增强文档,显式地编码隐式的查询-知识关系,从而将推理转移到索引阶段。为了优化这些推理依据的质量,我们采用了 群体相对策略优化(https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization)(GRPO),并使用 检索相似度(https://huggingface.co/papers?q=retrieval%20similarity) 作为可验证的奖励信号,从而能够直接优化索引决策以提高检索有效性。在 BRIGHT 基准(https://huggingface.co/papers?q=BRIGHT%20benchmark) 上进行的广泛实验表明,RL-Index 始终能够提升检索性能以及对应的 下游问答性能(https://huggingface.co/papers?q=downstream%20question-answering%20performance),同时显著降低 在线推理延迟(https://huggingface.co/papers?q=online%20inference%20latency)。此外,学习到的推理依据增强策略可以泛化到不同的检索器和生成器,突显了其作为一种即插即用索引策略在不同检索系统中的鲁棒性。
查看 arXiv 页面 (https://arxiv.org/abs/2606.16316) 查看 PDF (https://arxiv.org/pdf/2606.16316) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16316)
在你的代理中获取此论文:
hf papers read 2606\.16316
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.16316 以从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.16316 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.16316 以从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
重新思考推理密集型检索:评估并提升智能体搜索系统中的检索器
本文引入了 BRIGHT-Pro,这是一个针对推理密集型检索的新基准,以及 RTriever-Synth,这是一个用于微调 RTriever-4B 以在智能体搜索系统中提升性能的合成语料库。
LatentRAG:用于高效智能体 RAG 的潜在推理与检索
LatentRAG 是一个新颖的框架,将智能体 RAG 的推理与检索过程转移至连续的潜在空间,在保持与显式方法相当的性能的同时,将推理延迟降低了约 90%。
从自适应列表排序角度重新审视自适应检索增强生成的必要性
本文提出了 AdaRankLLM,一个自适应检索框架,通过列表排序动态过滤检索到的段落,对自适应 RAG 的必要性提出质疑。研究表明自适应检索对于较弱模型充当噪声过滤器,对于更强模型充当成本效率优化器,在多个数据集和 LLM 上进行了广泛实验。
通过并行搜索与显式合并扩展检索增强推理
介绍了MultiSearch,一种基于强化学习的框架,该框架在每一步推理中生成多个查询,并显式合并检索到的信息,以提高问答任务中的信噪比和推理准确性。
MemReranker:面向智能体记忆检索的推理感知重排序
MemReranker 是一个针对智能体记忆检索设计的推理感知重排序模型家族(0.6B/4B),通过结合 LLM 知识蒸馏技术解决语义相似性匹配的局限性,从而提升模型的时间与因果推理能力。