StepPO:面向智能体强化学习的步骤对齐策略优化

Hugging Face Daily Papers 论文

摘要

StepPO 引入了一种面向智能体强化学习的步骤中心范式,该范式将策略优化与智能体决策粒度对齐,在多轮交互任务中优于以令牌为中心的方法。

智能体强化学习(Agentic RL)正在成为提升大语言模型智能体能力的关键后训练范式。现有的用于大语言模型的强化学习算法大多遵循 RLHF 和 RLVR 中的令牌中心范式,其中令牌是建模和优化的基本单元。然而,这种范式在智能体强化学习中引入了粒度不匹配问题,因为它优化的是令牌级别的预测,而大语言模型智能体通过环境观察和行动的循环做出步骤级别的决策。为弥合这一差距,我们提出了 StepPO,一种通过步骤对齐策略优化实现的步骤中心智能体强化学习范式。具体来说,我们将智能体强化学习从令牌级马尔可夫决策过程(MDP)重新表述为步骤级马尔可夫决策过程,其中交互步骤作为基本轨迹表示。我们进一步提出步骤级信用分配,以使策略优化与智能体决策的自然粒度对齐。StepPO 在步骤级别优化智能体策略,以应对多轮智能体-环境交互。在多跳问答、学术论文搜索和文本世界行动任务上的实验表明,StepPO 持续优于各种强化学习算法。进一步的分析揭示了步骤中心范式如何改善智能体训练。我们希望这种步骤中心范式能为理解智能体行为提供有益的视角,并为训练更强大的大语言模型智能体提供一条实用路径。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:34

Paper page - StepPO:面向智能体强化学习的步骤对齐策略优化

来源:https://huggingface.co/papers/2604.18401

摘要

StepPO 提出了一种以步骤为中心的智能体强化学习方法,将策略优化与智能体的决策粒度对齐,在多轮交互任务中优于现有的以词元为中心的方法。

智能体强化学习(RL)正成为提升 LLM 智能体能力的关键后训练范式。现有的 LLM RL 算法大多沿袭 RLHF 和 RLVR 中的以词元为中心的范式,将词元作为建模和优化的基本单元。然而,该范式在智能体 RL 中引入了粒度不匹配问题——它优化词元级预测,而 LLM 智能体通过环境观察和动作的迭代进行步骤级决策。为弥合这一差距,我们提出 StepPO,一种通过步骤对齐策略优化实现的以步骤为中心的范式,用于智能体 RL。具体来说,我们将智能体 RL 从词元级马尔可夫决策过程(MDP)重新构建为步骤级 MDP,其中交互步骤作为基本的轨迹表示。我们进一步提出步骤级信用分配方法,以将策略优化与智能体决策的自然粒度对齐。综上,StepPO 在多轮智能体-环境交互中,在步骤级别优化智能体策略。在多跳问答、学术论文搜索和文本世界行动任务上的实验表明,StepPO 持续优于各种 RL 算法。进一步的分析揭示了以步骤为中心的范式如何改进智能体训练。我们希望这种以步骤为中心的范式能为理解智能体行为提供有用的视角,并为训练更强大的 LLM 智能体提供一条实用路径。

查看arXiv页面查看PDF项目页面GitHub添加到收藏夹

在你的智能体中获取此论文:

hf papers read 2604\.18401

没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2604.18401,即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2604.18401,即可从此页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用 arxiv.org/abs/2604.18401,即可从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集,即可从此页面链接。

相似文章

APPO: 智能体过程策略优化

Hugging Face Daily Papers

APPO通过使用细粒度决策点和过程级优势缩放来改进分支决策和信用分配,从而提升LLM智能体的多轮工具使用能力,在13个基准测试中比基线高出近4个百分点。

近端策略优化

OpenAI Blog

# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度

GAGPO:广义优势分组策略优化

arXiv cs.AI

GAGPO提出了一种无评论家的强化学习方法,在多方交互的自主任务中,利用非参数分组价值代理进行步级信用分配,在ALFWorld和WebShop上超越了强基线模型。

GraphPO:面向推理模型的基于图策略优化

arXiv cs.CL

GraphPO 是一种新颖的基于图的强化学习框架,它将轨迹表示为一个有向无环图,合并语义等价的推理路径,以减少冗余探索并改进大型推理模型的信用分配。