后训练中的忽视免费午餐:LLM代理的进度优势
摘要
本文介绍了“进度优势”,一种从强化学习后训练中推导出的隐式优势函数,能够为LLM代理提供有效的步骤级评分,而无需进行专门的奖励模型训练。它在多个基准测试和模型系列上优于基于置信度的基线和训练好的奖励模型。
查看缓存全文
缓存时间: 2026/06/26 22:09
论文页面 - 后训练中的意外收获:大型语言模型智能体的进度优势
来源:https://huggingface.co/papers/2606.26080
摘要
强化学习后训练无需专门的奖励模型训练,即可通过推导一个名为进度优势的隐式优势函数,为语言模型提供有效的步骤级评分。
过程奖励模型(https://huggingface.co/papers?q=reward%20models)能够对大型语言模型进行细粒度、步骤级的评估,但在智能体场景(https://huggingface.co/papers?q=agentic%20settings)中构建此类模型却异常困难:长程交互、不可逆动作以及随机的环境反馈,使得大规模的人工标注和蒙特卡洛估计都不可行。在这项工作中,我们展示了强化学习(https://huggingface.co/papers?q=reinforcement%20learning)(RL)后训练已经提供了有效的步骤级评分所需的要素,从而完全消除了训练专用奖励模型的需要。具体而言,我们在一般随机马尔可夫决策过程(https://huggingface.co/papers?q=Markov%20decision%20process)中推导出一个隐式优势函数,称之为进度优势(https://huggingface.co/papers?q=progress%20advantage)——RL训练后的策略与其参考策略之间的对数概率比(https://huggingface.co/papers?q=log-probability%20ratio)恰好恢复了最优优势函数(https://huggingface.co/papers?q=advantage%20function)。这一公式使得所得信号无需标注、与领域无关,并且作为标准RL后训练流程的副产品即可获得。我们在五个基准测试和四个模型家族上,针对三种不同应用验证了进度优势(https://huggingface.co/papers?q=progress%20advantage)的有效性:测试时扩展(https://huggingface.co/papers?q=test-time%20scaling)、不确定性量化(https://huggingface.co/papers?q=uncertainty%20quantification)和失败归因(https://huggingface.co/papers?q=failure%20attribution)。在所有设置下,它都持续优于基于置信度的基线方法,并且尽管不需要特定任务的训练,却超越了专门的训练奖励模型(https://huggingface.co/papers?q=reward%20models)。我们还通过更深入的分析补充了这些结果,探讨了进度优势(https://huggingface.co/papers?q=progress%20advantage)的特性,为在真实世界智能体系统中的采用提供了实用指南。
查看arXiv页面(https://arxiv.org/abs/2606.26080)
查看PDF(https://arxiv.org/pdf/2606.26080)
项目页面(https://changdaeoh.github.io/progress-advantage/)
GitHub2(https://github.com/deeplearning-wisc/progress-advantage)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.26080)
在您的智能体中获取此论文:
hf papers read 2606.26080
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到此论文
请在模型README.md中引用arxiv.org/abs/2606.26080以在此页面链接模型。
引用此论文的数据集0
没有数据集链接到此论文
请在数据集README.md中引用arxiv.org/abs/2606.26080以在此页面链接数据集。
引用此论文的Space0
没有Space链接到此论文
请在Space README.md中引用arxiv.org/abs/2606.26080以在此页面链接Space。
包含此论文的收藏0
没有收藏包含此论文
请将此论文添加到收藏(https://huggingface.co/new-collection)以在此页面链接。
相似文章
面向LLM智能体训练的回顾性进度感知自我精炼
本文介绍了RePro,一个通过“先执行再反思”的展开范式训练LLM智能体自我生成进度信号的框架,在WebShop、ALFWorld和Sokoban基准测试上实现了高达12%的绝对成功率提升。
LLMZero:通过LLM智能体发现强化学习后训练的自适应训练策略
LLMZero利用LLM智能体通过树搜索在训练轨迹中进行搜索,发现用于强化学习后训练的自适应多参数过渡策略,该策略在多种任务中优于固定调度和网格搜索。
RL用于LLM的价值梯度假说
本文提出了价值梯度假说,用以解释为何像PPO和GRPO这类无评论家(critic-free)的RL方法在LLM上表现良好,揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则,用于判断在预训练轨迹中何时RL最为有效。
关于预测预训练大语言模型(LLM)的后训练潜力
本文介绍了 RuDE,这是一种通过利用响应鉴别力来预测预训练大语言模型(LLM)后训练潜力的框架,旨在解决 MMLU 等传统基准测试的局限性。
潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架
介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。