step-level-feedback

#step-level-feedback

结合学习可靠性的过程奖励

arXiv cs.CL ↗ · 2026-05-18 缓存

BetaPRM 是一种过程奖励模型，它使用来自蒙特卡洛延续的 Beta 信念来预测步骤级的成功概率以及该预测的可靠性，从而实现自适应计算分配，在提高准确性的同时将 token 使用量减少高达 33.57%。

0 人收藏 0 人点赞