Critic-R: 使用指令调优检索器与自然语言内省反馈改进Agentic Search

Hugging Face Daily Papers 论文

摘要

Critic-R引入了一个框架,使用评判模型在推理智能体和检索器之间提供内省反馈,在推理和训练时间同时提升智能体搜索性能,且无需重新训练智能体。

智能体搜索系统通过迭代与检索模型交互来回答复杂查询。尽管取得了显著进展,但优化用于智能体搜索的检索器仍然具有挑战性,通常需要大量的协同训练或黄金标准标注,限制了实际应用可行性。我们提出Critic-R,一个在推理和训练期间明确闭合推理智能体与检索模型之间反馈循环的框架。Critic-R引入了一个评判模型,该模型在处理检索到的证据后评估智能体的内省推理轨迹,以确定检索到的上下文是否充分支持下一个推理步骤。Critic-R包含两个互补机制:Critic-R-Zero,一个推理时查询精化循环,迭代重写查询和检索指令;以及Critic-Embed,一种针对检索模型的优化方法,利用成功和失败的优化轨迹作为自动监督,无需人工相关性标注。我们在HotpotQA、2WikiMultihopQA、MuSiQue和Bamboogle上评估Critic-R。结果显示,Critic-R显著提高了检索质量和下游答案准确性。
查看原文
查看缓存全文

缓存时间: 2026/06/08 07:14

论文页面 - Critic-R:利用带有自然语言内省反馈的指令微调检索器改进智能搜索代理

来源:https://huggingface.co/papers/2606.00590
你的搜索代理真正的瓶颈在哪里?往往在于检索器,而且你不需要重新训练代理来修复它。

🗞️ 现有的多智能体搜索方法(如 Search-R1)主要优化推理代理,而将检索模型视为固定的黑盒组件。这种设计隐含地假设:一个足够强大的推理模型可以通过改进查询重写来弥补检索失败。我们质疑这一假设,认为次优的检索可能是智能搜索性能的瓶颈。已有一些尝试(如 Agentic-R、CoSearch)通过联合优化检索器和推理代理来解决此问题。然而在实践中,这些方法难以应用于推理模型无法进一步训练、检索器由外部提供、或缺乏金标段落监督的场景。

♦️ 为了解决这个问题,我们提出了 Critic-R,这是一个在推理和训练时闭合推理代理与检索器之间反馈回路的框架。Critic-R 并非盲目接受检索器返回的结果,而是使用一个独立的评审模型,在代理消费完检索文档后读取其内省推理轨迹,并判断这些证据是否真正足以支持下一步的推理。

这一验证信号驱动两个互补的机制:
🔹 Critic-R-Zero(推理阶段):当评审模型发现证据不足时,它基于推理代理自身的内省反馈重写检索查询和指令,并重新尝试,直到代理满意或达到优化预算上限。此过程无需任何梯度更新,代理模型保持不变,并且可作用于任何检索器之上,包括来自 Agentic-R 或 CoSearch 的检索器。
🔹 Critic-Embed(训练阶段):为了分摊优化的成本,我们将 Critic-R-Zero 自身的轨迹转化为监督信号。满足代理需求的文档成为正样本;在失败的优化过程中被拒绝的文档成为硬性轨迹内负样本。检索器基于此信号进行微调,无需任何金标段落标注。

在 HotpotQA、2Wiki、MuSiQue 和 Bamboogle 数据集上:
✅ Critic-R-Zero 仅推理阶段即带来 +12.4% 的相对提升
✅ Critic-Embed 在仅替换检索器时带来 +7.5% 的改进,超越了现成检索器和联合训练的检索器

一个有趣的发现是:在收集训练数据时去除代理的内省反馈,会导致检索器性能持续下降。代理自身对缺失信息的感知并非评审模型的次要输入,而是 Critic-Embed 所继承的主要监督信号。

更多详情请查阅论文。

相似文章

ICRL:通过强化学习内化自我批判

arXiv cs.AI

本文介绍了ICRL框架,该框架联合训练求解器和批判器,通过强化学习内化批判指导,使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计,在智能体和数学推理任务上比GRPO提高了6-7个点。

RICE-PO:将检索交互转化为推理代理的信用信号

arXiv cs.CL

RICE-PO 是一个无需评判器的策略优化框架,它将检索交互转化为局部化信用信号,用于训练推理代理。在相同检索器设置下,该框架在 BRIGHT 和 BEIR 基准测试中持续优于基于提示的代理和基于组的强化学习基线。