StraTA:通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers 论文

摘要

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

大型语言模型(LLM)越来越多地被用作交互式智能体,但优化它们进行长期决策仍然困难,因为当前方法大多纯粹是反应式的,这削弱了在长轨迹上的探索和信用分配。在这项工作中,我们提出了策略轨迹抽象(StraTA),这是一个简单的框架,将显式的轨迹级策略引入智能体强化学习(RL)。StraTA 从初始任务状态中采样一个紧凑的策略,后续行动基于该策略,并通过分层 GRPO 风格的 rollout 设计联合训练策略生成和行动执行,进一步通过多样化策略 rollout 和批判性自判断增强。在 ALFWorld、WebShop 和 SciWorld 上的实验表明,StraTA 在样本效率和最终性能上都持续优于强基线。StraTA 在 ALFWorld 上达到了 93.1% 的成功率,在 WebShop 上达到了 84.2%。在 SciWorld 上,StraTA 获得了 63.5% 的总体得分,超过了前沿的闭源模型。
查看原文
查看缓存全文

缓存时间: 2026/05/08 18:28

论文页面 - StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

Source: https://huggingface.co/papers/2605.06642 大家好!👋 分享我们最新的工作:StraTA:通过战略轨迹抽象激励智能体强化学习。

长视界 LLM 智能体应该保持纯粹反应式吗?我们认为不应该。当智能体必须仅从当前状态同时决定即时动作和整体行动路线时,规划与执行会纠缠在一起——探索和信用分配也会受损。

我们的解决方案:StraTA 从初始状态中采样一个紧凑的自然语言策略,并将所有后续动作条件化于该策略。我们使用层次化的 GRPO 风格 rollout 来联合训练这两个层级,并通过多样化的策略采样和关键的自我判断来增强。

它有效吗?StraTA 提升了样本效率和最终性能,超越了前沿闭源模型和先前 RL 基线。

我们相信 StraTA 凸显了显式轨迹级抽象对于更结构化、更有效的长视界智能体强化学习的价值。

相似文章