StraTA：通过策略轨迹抽象激励智能体强化学习

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法，通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制，在样本效率和最终性能上超越了前沿模型和先前 RL 基线。

大型语言模型（LLM）越来越多地被用作交互式智能体，但优化它们进行长期决策仍然困难，因为当前方法大多纯粹是反应式的，这削弱了在长轨迹上的探索和信用分配。在这项工作中，我们提出了策略轨迹抽象（StraTA），这是一个简单的框架，将显式的轨迹级策略引入智能体强化学习（RL）。StraTA 从初始任务状态中采样一个紧凑的策略，后续行动基于该策略，并通过分层 GRPO 风格的 rollout 设计联合训练策略生成和行动执行，进一步通过多样化策略 rollout 和批判性自判断增强。在 ALFWorld、WebShop 和 SciWorld 上的实验表明，StraTA 在样本效率和最终性能上都持续优于强基线。StraTA 在 ALFWorld 上达到了 93.1% 的成功率，在 WebShop 上达到了 84.2%。在 SciWorld 上，StraTA 获得了 63.5% 的总体得分，超过了前沿的闭源模型。

查看原文

查看缓存全文

缓存时间: 2026/05/08 18:28

论文页面 - StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

Source: https://huggingface.co/papers/2605.06642 大家好！👋 分享我们最新的工作：StraTA：通过战略轨迹抽象激励智能体强化学习。

长视界 LLM 智能体应该保持纯粹反应式吗？我们认为不应该。当智能体必须仅从当前状态同时决定即时动作和整体行动路线时，规划与执行会纠缠在一起——探索和信用分配也会受损。

我们的解决方案：StraTA 从初始状态中采样一个紧凑的自然语言策略，并将所有后续动作条件化于该策略。我们使用层次化的 GRPO 风格 rollout 来联合训练这两个层级，并通过多样化的策略采样和关键的自我判断来增强。

它有效吗？StraTA 提升了样本效率和最终性能，超越了前沿闭源模型和先前 RL 基线。

我们相信 StraTA 凸显了显式轨迹级抽象对于更结构化、更有效的长视界智能体强化学习的价值。

StraTA：通过策略轨迹抽象激励智能体强化学习

论文页面 - StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

相似文章

TRACE：一种用于高效智能体强化学习的统一展开预算分配框架

ExTra：面向语言模型强化学习的探索性轨迹优化

TRACE：面向LLM智能体的自适应跨步证据聚合轨迹推理

@blc_16: 如果你想了解为什么强化学习在处理长视界智能体任务时表现不佳，这是一个很好的解释。核心问题在于……

超越轨迹模仿：面向大模型推理的Strategy-Guided Policy Optimization

提交意见反馈