StraTA：通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法，通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制，在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

大型语言模型（LLM）越来越多地被用作交互式智能体，但优化它们进行长期决策仍然困难，因为当前方法大多纯粹是反应式的，这削弱了在长轨迹上的探索和信用分配。在这项工作中，我们提出了策略轨迹抽象（StraTA），这是一个简单的框架，将显式的轨迹级策略引入智能体强化学习（RL）。StraTA 从初始任务状态中采样一个紧凑的策略，后续行动基于该策略，并通过分层 GRPO 风格的 rollout 设计联合训练策略生成和行动执行，进一步通过多样化策略 rollout 和批判性自判断增强。在 ALFWorld、WebShop 和 SciWorld 上的实验表明，StraTA 在样本效率和最终性能上都持续优于强基线。StraTA 在 ALFWorld 上达到了 93.1% 的成功率，在 WebShop 上达到了 84.2%。在 SciWorld 上，StraTA 获得了 63.5% 的总体得分，超过了前沿的闭源模型。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 18:28

论文页面 - StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

Source: https://huggingface.co/papers/2605.06642 大家好！👋 分享我们最新的工作：StraTA：通过战略轨迹抽象激励智能体强化学习。

长视界 LLM 智能体应该保持纯粹反应式吗？我们认为不应该。当智能体必须仅从当前状态同时决定即时动作和整体行动路线时，规划与执行会纠缠在一起——探索和信用分配也会受损。

我们的解决方案：StraTA 从初始状态中采样一个紧凑的自然语言策略，并将所有后续动作条件化于该策略。我们使用层次化的 GRPO 风格 rollout 来联合训练这两个层级，并通过多样化的策略采样和关键的自我判断来增强。

它有效吗？StraTA 提升了样本效率和最终性能，超越了前沿闭源模型和先前 RL 基线。

我们相信 StraTA 凸显了显式轨迹级抽象对于更结构化、更有效的长视界智能体强化学习的价值。

StraTA：通过策略轨迹抽象激励智能体强化学习

论文页面 - StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

相似文章

Stratagem：通过轨迹调制博弈自博弈学习可迁移推理

SPS：通过概率挤压引导实现大语言模型强化学习中的更优探索

@apurvasgandhi: 子代理是一个有前景的推理时间缩放原语：• 扩展智能体的工作记忆• 分而治之解决难题• 通过并行执行更快地解决问题…

用于分层强化学习的随机神经网络

面向长视界语言智能体的里程碑引导策略学习

提交意见反馈