StraTA:通过策略轨迹抽象激励智能体强化学习
摘要
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
查看缓存全文
缓存时间: 2026/05/08 18:28
论文页面 - StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
Source: https://huggingface.co/papers/2605.06642 大家好!👋 分享我们最新的工作:StraTA:通过战略轨迹抽象激励智能体强化学习。
长视界 LLM 智能体应该保持纯粹反应式吗?我们认为不应该。当智能体必须仅从当前状态同时决定即时动作和整体行动路线时,规划与执行会纠缠在一起——探索和信用分配也会受损。
我们的解决方案:StraTA 从初始状态中采样一个紧凑的自然语言策略,并将所有后续动作条件化于该策略。我们使用层次化的 GRPO 风格 rollout 来联合训练这两个层级,并通过多样化的策略采样和关键的自我判断来增强。
它有效吗?StraTA 提升了样本效率和最终性能,超越了前沿闭源模型和先前 RL 基线。
我们相信 StraTA 凸显了显式轨迹级抽象对于更结构化、更有效的长视界智能体强化学习的价值。
相似文章
TRACE:一种用于高效智能体强化学习的统一展开预算分配框架
TRACE是一个统一的展开预算分配框架,通过基于前缀信息性在树状展开中动态分配资源,增强多轮智能体强化学习中的奖励对比。它在Multi-Hop QA等智能体基准测试上提升了效率和准确性。
ExTra:面向语言模型强化学习的探索性轨迹优化
ExTra 引入了面向语言模型强化学习的探索性轨迹优化,结合新颖性奖励和熵引导的前缀重生成,在数学推理基准上同时提升单样本准确率和推理时覆盖率。
TRACE:面向LLM智能体的自适应跨步证据聚合轨迹推理
TRACE是一个用于长周期LLM智能体轨迹的监控框架,它通过分诊-检查-判断(Triage-Inspect-Judge)循环来连接时间上相隔较远的动作证据,在规避性破坏检测任务上实现了高召回率和F1值。
@blc_16: 如果你想了解为什么强化学习在处理长视界智能体任务时表现不佳,这是一个很好的解释。核心问题在于……
该帖子解释了强化学习因奖励稀疏而在长视界任务中遇到的困难,并介绍了 GEPA 这一方法。GEPA 利用轨迹层级的文本反思来保留更丰富的反馈信号,以优化学习过程。
超越轨迹模仿:面向大模型推理的Strategy-Guided Policy Optimization
介绍了针对大模型推理的Strategy-Guided Policy Optimization(SGPO),该方法用策略蒸馏替代轨迹模仿,提升了数学基准测试上的泛化能力。