ARBOR：通过可复用评分缓存为搜索代理提供在线过程奖励

arXiv cs.CL 2026/06/03 04:00 论文

llm search-agents reinforcement-learning process-reward reusable-rubric multi-hop-qa

摘要

ARBOR 引入了一种可复用的评分缓存，为基于LLM的搜索代理提供在线过程奖励，在仅依赖结果奖励不足时提升训练效率。它在多跳问答基准测试中优于 GRPO 和 DAPO，将多达42%的零梯度训练组转化为信息丰富的训练组。

arXiv:2606.03239v1 公告类型：新提交摘要：基于LLM的搜索代理主要使用仅结果奖励进行训练，导致搜索过程本身无监督。当所有采样轨迹共享相同正确性时，该信号在结果同质组中退化，产生零组内优势且无梯度。现有的过程监督要么训练昂贵的验证器，要么生成每查询评分标准，这些标准在查询间不一致且使用一次后丢弃。我们提出 ARBOR（自适应可复用评分缓存用于在线奖励），一种可复用的过程奖励框架，维护跨查询共享的评分缓存。由对比轨迹引出的查询局部草稿被接纳，合并为跨查询公共评分标准，并随着策略演进而退役。一小部分活跃的公共评分标准通过稀疏成对判断对轨迹进行评分，所得分数加到基础奖励上，即使结果奖励一致也能提供过程级梯度。ARBOR 在四个多跳问答基准测试中持续优于 GRPO 和 DAPO 基线，将平均LLM评判准确率提升高达4.2个百分点，并将多达42%原本零梯度的训练组转化为信息丰富的训练组。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:37

# 通过可复用评分标准缓冲池的在线过程奖励：面向搜索智能体
来源：https://arxiv.org/html/2606.03239
郑刘1,∗，张龙翔2，王昕彤2，徐志昂2，詹韶雄1，单鑫3，黄文1，戴涛4,†，夏树涛1，霍成福2，丁亮2,†  
1清华大学  
2阿里巴巴集团  
3北京大学  
4深圳大学  
[email protected], {daitao.edu, liangding.liam}@gmail.com

###### 摘要

基于大语言模型的搜索智能体主要使用仅结果奖励进行训练，导致搜索过程本身缺乏监督。该信号在结果同质的组中失效，因为所有采样轨迹共享相同正确性，组内优势为零且无梯度。现有的过程监督要么训练昂贵的验证器，要么生成每查询的评分标准，但这些标准在查询间不一致且使用一次后即丢弃。我们提出**ARBOR**（自适应评分标准缓冲池在线奖励），一种可复用的过程奖励框架，维护一个跨查询共享的评分标准记忆。从对比轨迹中提取的查询局部草稿被接纳、整合为跨查询通用评分标准，并随策略演化而淘汰。一小部分活跃的通用评分标准通过稀疏成对评判对轨迹进行打分，所得分数被加入基础奖励中，即使在结果奖励均匀时也能提供过程级别的梯度。ARBOR在四个多跳问答基准上持续优于GRPO和DAPO基线，将LLM评判平均准确率提升最多4.2个百分点，并将多达42%的原本零梯度训练组转化为信息丰富的组。¹¹我们将在审稿过程结束后发布代码和模型。

ARBOR：通过可复用评分标准缓冲池的在线过程奖励：面向搜索智能体

郑刘1,∗，张龙翔2，王昕彤2，徐志昂2，詹韶雄1，单鑫3，黄文1，戴涛4,†，夏树涛1，霍成福2，丁亮2,†  
1清华大学  
2阿里巴巴集团  
3北京大学  
4深圳大学  
[email protected], {daitao.edu, liangding.liam}@gmail.com

11footnotetext:工作完成于阿里巴巴实习期间。22footnotetext:通讯作者。

## 1 引言

参照图标题

图1：相同结果下的过程质量差异。来自同一查询的两条轨迹达到相同答案，但搜索效率显著不同。

基于大语言模型的智能体在“推理与行动”范式（如ReAct (Yao et al., 2023 (https://arxiv.org/html/2606.03239#bib.bib8))）下与外部环境交互，已成为处理复杂任务的标准方法。一个代表性案例是搜索智能体 (Press et al., 2023 (https://arxiv.org/html/2606.03239#bib.bib6); Xie et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib2))，它通过迭代重写查询、检索证据、过滤观察结果并整合出最终答案，来回答需要外部知识的多跳问题。这种交互模式使搜索智能体在多跳问答和其他复杂信息检索任务上显著优于直接回答的LLM。最近的系统如Search-R1 (Jin et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib20)) 和 R1-Searcher (Song et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib21))，以及其他搜索智能体强化学习研究 (Li et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib14); Jiang et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib16))，进一步表明强化学习是提升搜索智能体能力上限的有效方式，并已成为其训练的主导范式。在此范式中，强化学习阶段几乎完全依赖仅结果奖励，使用最终答案的正确性作为奖励信号，加上格式惩罚 (Shao et al., 2024 (https://arxiv.org/html/2606.03239#bib.bib43); Yu et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib44))，而对搜索过程本身不提供任何监督。

来自同一查询的采样轨迹即使在结果相同时也可能遵循完全不同的搜索路径，如图1 (https://arxiv.org/html/2606.03239#S1.F1) 所示：一个可能通过有针对性的检索谨慎推理，而另一个则在冗余的绕行后偶然得到答案，但最终答案的正确性赋予它们相同的奖励。在组相对目标（如GRPO (Shao et al., 2024 (https://arxiv.org/html/2606.03239#bib.bib43))）下，相同的组内奖励产生零相对优势且无策略梯度，因此可以指导更好搜索行为的过程差异对训练毫无贡献。这种结果同质的组在搜索智能体强化学习训练中并不罕见（见第4.3节 (https://arxiv.org/html/2606.03239#S4.SS3)），使其成为仅结果奖励的主要瓶颈。

添加过程级别的监督是自然的回应，但现有途径不适用于搜索智能体。训练过程奖励模型 (PRM) 需要对中间推理状态进行基于展开的标注或价值估计 (Lightman et al., 2024 (https://arxiv.org/html/2606.03239#bib.bib30); Wang et al., 2024 (https://arxiv.org/html/2606.03239#bib.bib31); Luo et al., 2024 (https://arxiv.org/html/2606.03239#bib.bib32); Cui et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib33))；在搜索智能体中，这可能需要从中间状态回滚并调用搜索API，成本高昂，同时迫使搜索行为的定性本质转化为离散的步骤正确性标签。每查询生成的LLM评分标准，如Rubrics-as-Rewards (Gunjal et al., 2026 (https://arxiv.org/html/2606.03239#bib.bib34))，避免了验证器训练，但产生了跨查询不一致的标准，并且使用一次后即丢弃，因此无法稳定反映跨查询的过程规律或随策略演化。

这些限制指出，适用于搜索智能体强化学习的过程奖励应具备三个属性。首先，它应该监督搜索过程本身，为仅结果奖励忽略的过程质量提供学习信号；这一属性在结果同质的组中最为重要，因为过程监督是唯一的组内信号。其次，过程标准应该是通用的、跨查询可复用的准则，而不是可能在查询间冲突的特定查询评分标准。第三，过程标准的有效性会随着策略行为分布的演化而衰减，因此标准本身必须持续更新，而非固定不变。

我们提出**ARBOR**（自适应评分标准缓冲池在线奖励），一种用于搜索智能体强化学习训练的可复用过程奖励框架。核心组件是一个评分标准记忆，包含一个候选池和一个公共池：候选池存储从查询组内的对比轨迹中提取的查询局部草稿，公共池存储已整合为可复用跨查询过程标准的评分标准。在线接纳、整合和淘汰的生命周期将候选草稿整合为公共评分标准，并淘汰过时的，从而使公共池提供跨查询的统一标准，并随策略的行为分布演化。奖励塑形仅调用公共池中的一小部分活跃子集。查询组内的轨迹在每个活跃评分标准下进行成对评分，所得分数被加入基础奖励。可复用的公共池即使在结果同质的组中仍然有效，仍然产生仅结果奖励无法提供的组内过程区分度。图2 (https://arxiv.org/html/2606.03239#S1.F2) 展示了整体框架。

我们的贡献如下：(1) 我们提出了ARBOR，一个可复用的过程奖励框架，即使在仅结果奖励产生零梯度时也能提供组内过程监督；(2) 我们设计了一个评分标准记忆，具有在线接纳、整合和淘汰的生命周期，能够维护一致的跨查询过程标准并随策略演化；(3) ARBOR在三个Qwen3尺度上的四个多跳问答基准上持续优于GRPO和DAPO，将LLM评判平均准确率提升最多4.2个百分点，并将多达42%的结果同质组转化为具有非零奖励方差的组。

参照图标题

图2：ARBOR概述。(a) 对比归纳从查询组内的轨迹中提取查询局部草稿评分标准。(b) 评分标准缓冲池 M\\mathcal{M} 将草稿接纳到候选池 D\\mathcal{D} 中，将其整合到公共池 P\\mathcal{P} 中，并淘汰过时的评分标准，形成在线接纳-整合-淘汰生命周期。(c) 每一步，选择两个活跃的公共评分标准，通过稀疏成对评分对轨迹进行打分，并将中心化的评分标准分数加入基础奖励。

## 2 相关工作

### 2.1 搜索智能体的强化学习奖励设计

强化学习训练的搜索智能体的奖励设计沿三条线发展。主导范式依赖仅结果奖励，使用最终答案正确性或F1加上格式惩罚，完全不对搜索过程进行监督。Search-R1 (Jin et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib20))、R1-Searcher (Song et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib21)) 和 Search-o1 (Li et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib14)) 是这种方法的代表。第二条线通过任务特定的过程启发式（如信息增益、路径覆盖率或检索成本）来增强结果奖励，如 StepSearch (Zheng et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib22))、Search-P1 (Xia et al., 2026 (https://arxiv.org/html/2606.03239#bib.bib23))、SIGHT (Zhong et al., 2026 (https://arxiv.org/html/2606.03239#bib.bib24))、InfoFlow (Luo et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib25)) 和 TIPS (Xie et al., 2026b (https://arxiv.org/html/2606.03239#bib.bib26))，但这些指标无法捕捉搜索策略的定性方面。第三条线训练过程奖励模型 (PRM) 以提供步骤级别的反馈，监督通过不同方式构建：PRM800K (Lightman et al., 2024 (https://arxiv.org/html/2606.03239#bib.bib30)) 使用人工标注，Math-Shepherd (Wang et al., 2024 (https://arxiv.org/html/2606.03239#bib.bib31)) 和 OmegaPRM (Luo et al., 2024 (https://arxiv.org/html/2606.03239#bib.bib32)) 使用展开值估计，PRIME (Cui et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib33)) 从结果推断。在搜索智能体设置中，代表性尝试包括带有预定义原则和类别感知PRM的 PPR (Xu et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib28))、使用MCTS构建的步骤级标注后接过程监督DPO的 ReasonRAG (Zhang et al., 2025b (https://arxiv.org/html/2606.03239#bib.bib29))，以及混合逐步过程奖励和结果奖励的 LeTS (Zhang et al., 2025a (https://arxiv.org/html/2606.03239#bib.bib27))。

现有工作要么完全忽略搜索过程的质量，将其简化为可量化但语义浅显的领域指标，要么依赖单独训练的验证器。在此背景下，ARBOR 提供过程级别的反馈，即使在结果同质的组内也能持续区分，恰好在仅结果奖励失效的地方恢复学习信号。

### 2.2 基于评分标准的奖励信号

虽然基于评分标准的评估器如 Prometheus (Kim et al., 2024 (https://arxiv.org/html/2606.03239#bib.bib11)) 和 LLM-Rubric (Hashemi et al., 2024 (https://arxiv.org/html/2606.03239#bib.bib12)) 使用预定义评分标准来结构化 LLM 作为评判者的评估，但最近的工作将评分标准直接用作强化学习奖励信号。大多数方法按查询生成评分标准，不跨查询共享，这可能导致查询间的冲突。Rubrics-as-Rewards (Gunjal et al., 2026 (https://arxiv.org/html/2606.03239#bib.bib34)) 使用静态的查询特定检查表作为在策略奖励；类似的每查询方法包括 (Wang et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib35); He et al., 2025 (https://arxiv.org/html/2606.03239#bib.bib36); Zhou et al., 2026 (https://arxiv.org/html/2606.03239#bib.bib37))。几个系统进一步在训练过程中演化评分标准或其生成器 (Xu et al., 2026 (https://arxiv.org/html/2606.03239#bib.bib40); Sheng et al., 2026 (https://arxiv.org/html/2606.03239#bib.bib41); Shao et al., 2026 (https://arxiv.org/html/2606.03239#bib.bib42))，解决了过时问题，但仍然不跨查询共享。Auto-Rubric (Xie et al., 2026a (https://arxiv.org/html/2606.03239#bib.bib38))、AdaRubric (Ding, 2026 (https://arxiv.org/html/2606.03239#bib.bib1)) 和 OpenRS (Jia et al., 2026 (https://arxiv.org/html/2606.03239#bib.bib39)) 通过离线评分标准生成实现了跨实例的可复用性，但在强化学习训练期间不与策略共同演化。

ARBOR 结合了跨查询可复用性和在线适应性：一个持久的评分标准缓冲池将查询局部草稿整合为共享的公共评分标准，并持续淘汰过时的标准，使过程标准在查询间保持一致，并与演化中的策略对齐。

## 3 方法

### 3.1 概述与问题设定

我们考虑搜索智能体的强化学习训练。给定一个查询 qq，策略通过多轮“思考、搜索、观察”交互产生一条轨迹 τ\\tau，并最终输出一个答案。在每个训练步骤，我们从同一查询中采样 K 条轨迹，形成一个查询组 Gq={τ1,...,τK}\\mathcal{G}\_{q}=\\{\\tau\_{1},\\ldots,\\tau\_{K}\\}，其中轨迹共享相同的查询和环境，仅通过策略采样产生差异。

训练期间，ARBOR 维护一个跨所有查询共享的单一评分标准记忆 M\\mathcal{M}。在每一步，ARBOR 使用 M\\mathcal{M} 中少量的当前活跃自然语言过程评分标准，沿过程维度对 Gq\\mathcal{G}\_{q} 中的轨迹进行评分，所得分数作为辅助过程级别信号，与现有强化学习奖励相加，供策略优化器使用。M\\mathcal{M} 本身在整个训练过程中通过在线接纳、整合和淘汰生命周期演化，其内容随策略行为分布同步更新。

### 3.2 对比局部评分标准归纳

ARBOR 通过对比归纳从每个查询组 Gq\\mathcal{G}\_{q} 中归纳查询局部草稿评分标准。设 F1(τ)F\_1(\\tau) 表示轨迹 τ\\tau 相对于标准答案的词元级 F1。我们选择得分最高的轨迹作为正锚点，得分最低的轨迹作为最差负例，以及得分次高的剩余轨迹作为难负例：

τ+\\displaystyle\\tau^+ =arg maxτ∈Gq F1(τ),\\displaystyle = \\arg\\max_{\\tau \\in \\mathcal{G}\_{q}} F\_1(\\tau),(1)
τworst−\\displaystyle\\tau^-_{\\text{worst}} =arg minτ∈Gq F1(τ),\\displaystyle = \\arg\\min_{\\tau \\in \\mathcal{G}\_{q}} F\_1(\\tau),
τhard−\\displaystyle\\tau^-_{\\text{hard}} =arg maxτ∈Gq∖{τ+} F1(τ).\\displaystyle = \\arg\\max_{\\tau \\in \\mathcal{G}\_{q} \\setminus \\{\\tau^+\\}} F\_1(\\tau).

这些锚点定义了两个互补的对比。对 (τ+,τworst−)(\\tau^+, \\tau^-_{\\text{worst}}) 暴露了大尺度的成功-失败差异，并揭示了关键过程偏差；而对 (τ+,τhard−)(\\tau^+, \\tau^-_{\\text{hard}}) 在相似正确性的轨迹之间提供了更细粒度的比较，分离出更微妙的过程差异。这两对同时提供给一个外部 LLM，后者总结出少量的自然语言过程评分标准。

ARBOR：通过可复用评分缓存为搜索代理提供在线过程奖励

相似文章

RUBRIC-ARROW：非可验证领域中LLM后训练的交替点状评分标准奖励建模

ARES：可扩展LLM强化学习的自动评估标准合成

面向逐步模型路由的评分引导过程奖励

自动评分标准作为奖励：从隐性偏好到显式多模态生成准则

C2：基于二元偏好的可扩展评分增强奖励建模

提交意见反馈