RL-Index: 强化学习的检索索引推理

Hugging Face Daily Papers 论文

摘要

RL-Index 提出了一种基于强化学习的智能索引框架,通过用LLM生成的解释来扩充文档,将推理从查询阶段转移到索引阶段,从而提升检索效果并降低在线延迟。

检索外部知识对于解决现实世界任务至关重要,但当查询与其相关知识之间的关系涉及隐含且复杂的推理(例如,依赖相同定理的数学问题或需要深度推理的编码任务),超越了表面层次的语义或词汇匹配时,这一过程仍然具有挑战性。现有方法主要依赖查询端推理(如查询重写),这会导致显著的在线延迟,并且未能充分利用在知识语料库本身(即索引端推理)上进行推理的机会。在本文中,我们提出了RL-Index,一种将检索索引推理建模为强化学习问题的智能索引框架。RL-Index 不是在进行查询时执行推理,而是将推理转移到索引阶段,通过用LLM生成的解释来扩充文档,这些解释显式编码了潜在的查询-知识关系。为了优化这些解释的质量,我们采用了群体相对策略优化(GRPO),并使用检索相似度作为可验证的奖励信号,从而能够直接优化索引决策以提升检索效果。在BRIGHT基准上的大量实验表明,RL-Index 持续提升了检索和下游问答性能,同时显著降低了在线推理延迟。此外,学习到的解释扩充方法能够泛化到多种检索器和生成器,凸显了其作为即插即用索引策略在不同检索系统中的鲁棒性。
查看原文
查看缓存全文

缓存时间: 2026/06/25 09:10

论文页面 - RL-Index:用于检索索引推理的强化学习

来源:https://huggingface.co/papers/2606.16316

摘要

RL-Index 提出了一种代理式索引框架,通过利用 LLM 生成的推理依据和强化学习,将推理从查询阶段转移到索引构建阶段,从而提升检索有效性并降低延迟。

在解决实际任务时,检索外部知识至关重要,但当查询与其相关知识之间的关系涉及隐式且复杂的推理(例如依赖同一数学定理的数学问题,或需要深度推理的编码任务),超出了表面语义或词汇匹配的范畴时,检索仍然具有挑战性。现有方法主要依赖于查询端推理(https://huggingface.co/papers?q=query-side%20reasoning)(例如查询重写),这会引入显著的在线延迟,并且未能充分利用对知识语料库本身进行推理(即 索引端推理(https://huggingface.co/papers?q=index-side%20reasoning))的机会。在本文中,我们提出了 RL-Index,一种代理式索引框架,将 检索索引推理(https://huggingface.co/papers?q=retrieval%20index%20reasoning) 形式化为一个 强化学习(https://huggingface.co/papers?q=reinforcement%20learning) 问题。RL-Index 并非在查询时进行推理,而是通过使用 LLM 生成的推理依据(https://huggingface.co/papers?q=LLM-generated%20rationales) 来增强文档,显式地编码隐式的查询-知识关系,从而将推理转移到索引阶段。为了优化这些推理依据的质量,我们采用了 群体相对策略优化(https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization)(GRPO),并使用 检索相似度(https://huggingface.co/papers?q=retrieval%20similarity) 作为可验证的奖励信号,从而能够直接优化索引决策以提高检索有效性。在 BRIGHT 基准(https://huggingface.co/papers?q=BRIGHT%20benchmark) 上进行的广泛实验表明,RL-Index 始终能够提升检索性能以及对应的 下游问答性能(https://huggingface.co/papers?q=downstream%20question-answering%20performance),同时显著降低 在线推理延迟(https://huggingface.co/papers?q=online%20inference%20latency)。此外,学习到的推理依据增强策略可以泛化到不同的检索器和生成器,突显了其作为一种即插即用索引策略在不同检索系统中的鲁棒性。

查看 arXiv 页面 (https://arxiv.org/abs/2606.16316) 查看 PDF (https://arxiv.org/pdf/2606.16316) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16316)

在你的代理中获取此论文:

hf papers read 2606\.16316

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.16316 以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.16316 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.16316 以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

从自适应列表排序角度重新审视自适应检索增强生成的必要性

arXiv cs.CL

本文提出了 AdaRankLLM,一个自适应检索框架,通过列表排序动态过滤检索到的段落,对自适应 RAG 的必要性提出质疑。研究表明自适应检索对于较弱模型充当噪声过滤器,对于更强模型充当成本效率优化器,在多个数据集和 LLM 上进行了广泛实验。