best-of-n

标签

Cards List
#best-of-n

从带标签验证集输出统计预测推理时扩展增益

arXiv cs.CL · 昨天 缓存

本文提出了一种方法,利用单次带标签验证集采样中获得的廉价统计量,预测语言模型的最佳N选一推理扩展增益。一个仅有三个核心特征的紧凑预测器与真实增益的斯皮尔曼相关系数ρ=0.90,使得在昂贵的奖励模型评分之前能够筛选配置。

0 人收藏 0 人点赞
#best-of-n

结合学习可靠性的过程奖励

arXiv cs.CL · 2026-05-18 缓存

BetaPRM 是一种过程奖励模型,它使用来自蒙特卡洛延续的 Beta 信念来预测步骤级的成功概率以及该预测的可靠性,从而实现自适应计算分配,在提高准确性的同时将 token 使用量减少高达 33.57%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈