面向逐步模型路由的评分引导过程奖励

arXiv cs.AI 2026/05/29 04:00 论文

摘要

RoRo 提出了一种面向大型推理模型逐步模型路由的评分引导过程奖励框架，将过程奖励与结果奖励结合，通过 GRPO 训练路由策略，在推理基准测试中优于基线方法。

arXiv:2605.29310v1 公告类型：新摘要：逐步模型路由通过将每个推理步骤分配给合适的模型来提高大型推理模型（LRM）的效率。近期方法将路由建模为顺序决策过程，并使用强化学习训练路由器。然而，尽管他们将路由建模为一个过程，他们仍然使用结果奖励来监督路由器。这种奖励仅反映最终答案的正确性，无法评估中间路由决策，这可能会削弱性能和泛化能力。为解决这一不足，我们提出了RoRo，一种用于逐步模型路由的评分引导过程奖励框架。RoRo首先收集多样化的路由轨迹，并根据结果、成本和过程质量构建偏好对。然后，它通过交替优化训练一个Rubricor生成查询特定的评估评分指南，并训练一个Judge在此指南下对路由轨迹进行评分。生成的过程奖励与结果奖励结合，通过GRPO优化路由策略。在五个推理基准上的实验表明，在同类和跨类设置下，RoRo一致优于强基线，并实现了更好的准确率和成本权衡。

查看原文

面向逐步模型路由的评分引导过程奖励

相似文章

RLVR中的奖励粒度：比较小语言模型数学推理中的过程奖励与结果奖励结构

RubricEM：基于量规引导策略分解，超越可验证奖励的元强化学习

ProcessThinker: 通过基于展开的过程奖励增强多模态大语言模型推理

ARBOR：通过可复用评分缓存为搜索代理提供在线过程奖励

奖励驱动的大语言模型代理工作流：融合POMDP路由与自我修正的自主决策

提交意见反馈