面向逐步模型路由的评分引导过程奖励

arXiv cs.AI 论文

摘要

RoRo 提出了一种面向大型推理模型逐步模型路由的评分引导过程奖励框架,将过程奖励与结果奖励结合,通过 GRPO 训练路由策略,在推理基准测试中优于基线方法。

arXiv:2605.29310v1 公告类型:新 摘要:逐步模型路由通过将每个推理步骤分配给合适的模型来提高大型推理模型(LRM)的效率。近期方法将路由建模为顺序决策过程,并使用强化学习训练路由器。然而,尽管他们将路由建模为一个过程,他们仍然使用结果奖励来监督路由器。这种奖励仅反映最终答案的正确性,无法评估中间路由决策,这可能会削弱性能和泛化能力。为解决这一不足,我们提出了RoRo,一种用于逐步模型路由的评分引导过程奖励框架。RoRo首先收集多样化的路由轨迹,并根据结果、成本和过程质量构建偏好对。然后,它通过交替优化训练一个Rubricor生成查询特定的评估评分指南,并训练一个Judge在此指南下对路由轨迹进行评分。生成的过程奖励与结果奖励结合,通过GRPO优化路由策略。在五个推理基准上的实验表明,在同类和跨类设置下,RoRo一致优于强基线,并实现了更好的准确率和成本权衡。
查看原文

相似文章

RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习

Hugging Face Daily Papers

本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。

ARBOR:通过可复用评分缓存为搜索代理提供在线过程奖励

arXiv cs.CL

ARBOR 引入了一种可复用的评分缓存,为基于LLM的搜索代理提供在线过程奖励,在仅依赖结果奖励不足时提升训练效率。它在多跳问答基准测试中优于 GRPO 和 DAPO,将多达42%的零梯度训练组转化为信息丰富的训练组。

无监督过程奖励模型

Hugging Face Daily Papers

本文提出无监督过程奖励模型(uPRM),通过利用LLM的下一个令牌概率识别错误推理步骤,从而消除人工标注需求,在准确率上相比LLM-as-a-Judge提升高达15%,并且作为验证器和奖励信号时表现与有监督PRM相当。