RL-Index: 强化学习的检索索引推理

Hugging Face Daily Papers 2026/06/15 00:00 论文

reinforcement-learning retrieval indexing reasoning llm agentic-framework

摘要

RL-Index 提出了一种基于强化学习的智能索引框架，通过用LLM生成的解释来扩充文档，将推理从查询阶段转移到索引阶段，从而提升检索效果并降低在线延迟。

检索外部知识对于解决现实世界任务至关重要，但当查询与其相关知识之间的关系涉及隐含且复杂的推理（例如，依赖相同定理的数学问题或需要深度推理的编码任务），超越了表面层次的语义或词汇匹配时，这一过程仍然具有挑战性。现有方法主要依赖查询端推理（如查询重写），这会导致显著的在线延迟，并且未能充分利用在知识语料库本身（即索引端推理）上进行推理的机会。在本文中，我们提出了RL-Index，一种将检索索引推理建模为强化学习问题的智能索引框架。RL-Index 不是在进行查询时执行推理，而是将推理转移到索引阶段，通过用LLM生成的解释来扩充文档，这些解释显式编码了潜在的查询-知识关系。为了优化这些解释的质量，我们采用了群体相对策略优化（GRPO），并使用检索相似度作为可验证的奖励信号，从而能够直接优化索引决策以提升检索效果。在BRIGHT基准上的大量实验表明，RL-Index 持续提升了检索和下游问答性能，同时显著降低了在线推理延迟。此外，学习到的解释扩充方法能够泛化到多种检索器和生成器，凸显了其作为即插即用索引策略在不同检索系统中的鲁棒性。

查看原文

查看缓存全文

缓存时间: 2026/06/25 09:10

论文页面 - RL-Index：用于检索索引推理的强化学习

来源：https://huggingface.co/papers/2606.16316

摘要

RL-Index 提出了一种代理式索引框架，通过利用 LLM 生成的推理依据和强化学习，将推理从查询阶段转移到索引构建阶段，从而提升检索有效性并降低延迟。

在解决实际任务时，检索外部知识至关重要，但当查询与其相关知识之间的关系涉及隐式且复杂的推理（例如依赖同一数学定理的数学问题，或需要深度推理的编码任务），超出了表面语义或词汇匹配的范畴时，检索仍然具有挑战性。现有方法主要依赖于查询端推理（https://huggingface.co/papers?q=query-side%20reasoning）（例如查询重写），这会引入显著的在线延迟，并且未能充分利用对知识语料库本身进行推理（即索引端推理（https://huggingface.co/papers?q=index-side%20reasoning））的机会。在本文中，我们提出了 RL-Index，一种代理式索引框架，将检索索引推理（https://huggingface.co/papers?q=retrieval%20index%20reasoning）形式化为一个强化学习（https://huggingface.co/papers?q=reinforcement%20learning）问题。RL-Index 并非在查询时进行推理，而是通过使用 LLM 生成的推理依据（https://huggingface.co/papers?q=LLM-generated%20rationales）来增强文档，显式地编码隐式的查询-知识关系，从而将推理转移到索引阶段。为了优化这些推理依据的质量，我们采用了群体相对策略优化（https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization）（GRPO），并使用检索相似度（https://huggingface.co/papers?q=retrieval%20similarity）作为可验证的奖励信号，从而能够直接优化索引决策以提高检索有效性。在 BRIGHT 基准（https://huggingface.co/papers?q=BRIGHT%20benchmark）上进行的广泛实验表明，RL-Index 始终能够提升检索性能以及对应的下游问答性能（https://huggingface.co/papers?q=downstream%20question-answering%20performance），同时显著降低在线推理延迟（https://huggingface.co/papers?q=online%20inference%20latency）。此外，学习到的推理依据增强策略可以泛化到不同的检索器和生成器，突显了其作为一种即插即用索引策略在不同检索系统中的鲁棒性。

查看 arXiv 页面 (https://arxiv.org/abs/2606.16316) 查看 PDF (https://arxiv.org/pdf/2606.16316) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16316)

在你的代理中获取此论文：

hf papers read 2606\.16316

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.16316 以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.16316 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.16316 以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

RL-Index: 强化学习的检索索引推理

论文页面 - RL-Index：用于检索索引推理的强化学习

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

重新思考推理密集型检索：评估并提升智能体搜索系统中的检索器

LatentRAG：用于高效智能体 RAG 的潜在推理与检索

从自适应列表排序角度重新审视自适应检索增强生成的必要性

通过并行搜索与显式合并扩展检索增强推理

MemReranker：面向智能体记忆检索的推理感知重排序

提交意见反馈