step-level-feedback

标签

Cards List
#step-level-feedback

结合学习可靠性的过程奖励

arXiv cs.CL · 2026-05-18 缓存

BetaPRM 是一种过程奖励模型,它使用来自蒙特卡洛延续的 Beta 信念来预测步骤级的成功概率以及该预测的可靠性,从而实现自适应计算分配,在提高准确性的同时将 token 使用量减少高达 33.57%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈