标签
本文介绍了“进度优势”,一种从强化学习后训练中推导出的隐式优势函数,能够为LLM代理提供有效的步骤级评分,而无需进行专门的奖励模型训练。它在多个基准测试和模型系列上优于基于置信度的基线和训练好的奖励模型。