reusable-rubric

标签

Cards List
#reusable-rubric

ARBOR:通过可复用评分缓存为搜索代理提供在线过程奖励

arXiv cs.CL · 2026-06-03 缓存

ARBOR 引入了一种可复用的评分缓存,为基于LLM的搜索代理提供在线过程奖励,在仅依赖结果奖励不足时提升训练效率。它在多跳问答基准测试中优于 GRPO 和 DAPO,将多达42%的零梯度训练组转化为信息丰富的训练组。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈