标签
本文提出了一种方法,利用单次带标签验证集采样中获得的廉价统计量,预测语言模型的最佳N选一推理扩展增益。一个仅有三个核心特征的紧凑预测器与真实增益的斯皮尔曼相关系数ρ=0.90,使得在昂贵的奖励模型评分之前能够筛选配置。
BetaPRM 是一种过程奖励模型,它使用来自蒙特卡洛延续的 Beta 信念来预测步骤级的成功概率以及该预测的可靠性,从而实现自适应计算分配,在提高准确性的同时将 token 使用量减少高达 33.57%。