Critic-R: 使用指令调优检索器与自然语言内省反馈改进Agentic Search
摘要
Critic-R引入了一个框架,使用评判模型在推理智能体和检索器之间提供内省反馈,在推理和训练时间同时提升智能体搜索性能,且无需重新训练智能体。
查看缓存全文
缓存时间: 2026/06/08 07:14
论文页面 - Critic-R:利用带有自然语言内省反馈的指令微调检索器改进智能搜索代理
来源:https://huggingface.co/papers/2606.00590
你的搜索代理真正的瓶颈在哪里?往往在于检索器,而且你不需要重新训练代理来修复它。
🗞️ 现有的多智能体搜索方法(如 Search-R1)主要优化推理代理,而将检索模型视为固定的黑盒组件。这种设计隐含地假设:一个足够强大的推理模型可以通过改进查询重写来弥补检索失败。我们质疑这一假设,认为次优的检索可能是智能搜索性能的瓶颈。已有一些尝试(如 Agentic-R、CoSearch)通过联合优化检索器和推理代理来解决此问题。然而在实践中,这些方法难以应用于推理模型无法进一步训练、检索器由外部提供、或缺乏金标段落监督的场景。
♦️ 为了解决这个问题,我们提出了 Critic-R,这是一个在推理和训练时闭合推理代理与检索器之间反馈回路的框架。Critic-R 并非盲目接受检索器返回的结果,而是使用一个独立的评审模型,在代理消费完检索文档后读取其内省推理轨迹,并判断这些证据是否真正足以支持下一步的推理。
这一验证信号驱动两个互补的机制:
🔹 Critic-R-Zero(推理阶段):当评审模型发现证据不足时,它基于推理代理自身的内省反馈重写检索查询和指令,并重新尝试,直到代理满意或达到优化预算上限。此过程无需任何梯度更新,代理模型保持不变,并且可作用于任何检索器之上,包括来自 Agentic-R 或 CoSearch 的检索器。
🔹 Critic-Embed(训练阶段):为了分摊优化的成本,我们将 Critic-R-Zero 自身的轨迹转化为监督信号。满足代理需求的文档成为正样本;在失败的优化过程中被拒绝的文档成为硬性轨迹内负样本。检索器基于此信号进行微调,无需任何金标段落标注。
在 HotpotQA、2Wiki、MuSiQue 和 Bamboogle 数据集上:
✅ Critic-R-Zero 仅推理阶段即带来 +12.4% 的相对提升
✅ Critic-Embed 在仅替换检索器时带来 +7.5% 的改进,超越了现成检索器和联合训练的检索器
一个有趣的发现是:在收集训练数据时去除代理的内省反馈,会导致检索器性能持续下降。代理自身对缺失信息的感知并非评审模型的次要输入,而是 Critic-Embed 所继承的主要监督信号。
更多详情请查阅论文。
相似文章
重新思考推理密集型检索:评估并提升智能体搜索系统中的检索器
本文引入了 BRIGHT-Pro,这是一个针对推理密集型检索的新基准,以及 RTriever-Synth,这是一个用于微调 RTriever-4B 以在智能体搜索系统中提升性能的合成语料库。
ICRL:通过强化学习内化自我批判
本文介绍了ICRL框架,该框架联合训练求解器和批判器,通过强化学习内化批判指导,使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计,在智能体和数学推理任务上比GRPO提高了6-7个点。
MemReranker:面向智能体记忆检索的推理感知重排序
MemReranker 是一个针对智能体记忆检索设计的推理感知重排序模型家族(0.6B/4B),通过结合 LLM 知识蒸馏技术解决语义相似性匹配的局限性,从而提升模型的时间与因果推理能力。
QueryAgent-R1: 桥接查询生成与商品检索的电商查询推荐
QueryAgent-R1是一个智能体框架,利用强化学习和记忆抽象桥接电商中的查询生成与商品检索,在线测试中查询点击率提升2.9%,转化率提升3.1%。
RICE-PO:将检索交互转化为推理代理的信用信号
RICE-PO 是一个无需评判器的策略优化框架,它将检索交互转化为局部化信用信号,用于训练推理代理。在相同检索器设置下,该框架在 BRIGHT 和 BEIR 基准测试中持续优于基于提示的代理和基于组的强化学习基线。