后训练中的忽视免费午餐:LLM代理的进度优势

Hugging Face Daily Papers 论文

摘要

本文介绍了“进度优势”,一种从强化学习后训练中推导出的隐式优势函数,能够为LLM代理提供有效的步骤级评分,而无需进行专门的奖励模型训练。它在多个基准测试和模型系列上优于基于置信度的基线和训练好的奖励模型。

过程奖励模型能够对LLM进行细粒度的步骤级评估,但在代理环境中构建它们仍然极其困难:长期交互、不可逆动作和随机环境反馈使得大规模人工标注和蒙特卡洛估计都不切实际。在这项工作中,我们展示了强化学习(RL)后训练已经提供了有效步骤级评分的要素,完全消除了对专门奖励模型训练的需求。具体而言,我们在一般随机马尔可夫决策过程中推导出一个隐式优势函数,我们称之为进度优势——RL训练策略与其参考策略之间的对数概率比恰好恢复了最优优势函数。这种公式使得到的信号无需标注、与领域无关,并且可以作为标准RL后训练流程的副产品获得。我们在三个不同的应用中验证了进度优势的有效性:测试时扩展、不确定性量化和失败归因,涉及五个基准测试和四个模型系列。在所有设置中,它始终优于基于置信度的基线,并且尽管不需要任务特定训练,却超过了专门训练的奖励模型。我们通过更深入地分析进度优势的特征来补充这些结果,为在实际代理系统中采用提供实用指导。
查看原文
查看缓存全文

缓存时间: 2026/06/26 22:09

论文页面 - 后训练中的意外收获:大型语言模型智能体的进度优势

来源:https://huggingface.co/papers/2606.26080

摘要

强化学习后训练无需专门的奖励模型训练,即可通过推导一个名为进度优势的隐式优势函数,为语言模型提供有效的步骤级评分。

过程奖励模型(https://huggingface.co/papers?q=reward%20models)能够对大型语言模型进行细粒度、步骤级的评估,但在智能体场景(https://huggingface.co/papers?q=agentic%20settings)中构建此类模型却异常困难:长程交互、不可逆动作以及随机的环境反馈,使得大规模的人工标注和蒙特卡洛估计都不可行。在这项工作中,我们展示了强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RL)后训练已经提供了有效的步骤级评分所需的要素,从而完全消除了训练专用奖励模型的需要。具体而言,我们在一般随机马尔可夫决策过程(https://huggingface.co/papers?q=Markov%20decision%20process)中推导出一个隐式优势函数,称之为进度优势(https://huggingface.co/papers?q=progress%20advantage)——RL训练后的策略与其参考策略之间的对数概率比(https://huggingface.co/papers?q=log-probability%20ratio)恰好恢复了最优优势函数(https://huggingface.co/papers?q=advantage%20function)。这一公式使得所得信号无需标注、与领域无关,并且作为标准RL后训练流程的副产品即可获得。我们在五个基准测试和四个模型家族上,针对三种不同应用验证了进度优势(https://huggingface.co/papers?q=progress%20advantage)的有效性:测试时扩展(https://huggingface.co/papers?q=test-time%20scaling)、不确定性量化(https://huggingface.co/papers?q=uncertainty%20quantification)和失败归因(https://huggingface.co/papers?q=failure%20attribution)。在所有设置下,它都持续优于基于置信度的基线方法,并且尽管不需要特定任务的训练,却超越了专门的训练奖励模型(https://huggingface.co/papers?q=reward%20models)。我们还通过更深入的分析补充了这些结果,探讨了进度优势(https://huggingface.co/papers?q=progress%20advantage)的特性,为在真实世界智能体系统中的采用提供了实用指南。

查看arXiv页面(https://arxiv.org/abs/2606.26080)
查看PDF(https://arxiv.org/pdf/2606.26080)
项目页面(https://changdaeoh.github.io/progress-advantage/)
GitHub2(https://github.com/deeplearning-wisc/progress-advantage)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.26080)

在您的智能体中获取此论文:

hf papers read 2606.26080

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

请在模型README.md中引用arxiv.org/abs/2606.26080以在此页面链接模型。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集README.md中引用arxiv.org/abs/2606.26080以在此页面链接数据集。

引用此论文的Space0

没有Space链接到此论文

请在Space README.md中引用arxiv.org/abs/2606.26080以在此页面链接Space。

包含此论文的收藏0

没有收藏包含此论文

请将此论文添加到收藏(https://huggingface.co/new-collection)以在此页面链接。

相似文章

RL用于LLM的价值梯度假说

arXiv cs.LG

本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。