StraTA:通过策略轨迹抽象激励智能体强化学习
摘要
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
查看缓存全文
缓存时间: 2026/05/08 18:28
论文页面 - StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
Source: https://huggingface.co/papers/2605.06642 大家好!👋 分享我们最新的工作:StraTA:通过战略轨迹抽象激励智能体强化学习。
长视界 LLM 智能体应该保持纯粹反应式吗?我们认为不应该。当智能体必须仅从当前状态同时决定即时动作和整体行动路线时,规划与执行会纠缠在一起——探索和信用分配也会受损。
我们的解决方案:StraTA 从初始状态中采样一个紧凑的自然语言策略,并将所有后续动作条件化于该策略。我们使用层次化的 GRPO 风格 rollout 来联合训练这两个层级,并通过多样化的策略采样和关键的自我判断来增强。
它有效吗?StraTA 提升了样本效率和最终性能,超越了前沿闭源模型和先前 RL 基线。
我们相信 StraTA 凸显了显式轨迹级抽象对于更结构化、更有效的长视界智能体强化学习的价值。
相似文章
Stratagem:通过轨迹调制博弈自博弈学习可迁移推理
# 论文页面 - Stratagem:通过轨迹调制博弈自博弈学习可迁移推理 来源:[https://huggingface.co/papers/2604.17696](https://huggingface.co/papers/2604.17696) 作者:,,,,,,,,,, ## 摘要 STRATAGEM 通过引入推理可迁移性系数与演化奖励,鼓励抽象、跨领域模式而非博弈专用启发式,从而解决语言模型推理迁移受限的问题。博弈为开发通用推理能力提供了极具吸引力的范式。
SPS:通过概率挤压引导实现大语言模型强化学习中的更优探索
研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。
@apurvasgandhi: 子代理是一个有前景的推理时间缩放原语:• 扩展智能体的工作记忆• 分而治之解决难题• 通过并行执行更快地解决问题…
RAO(递归智能体优化)是一种端到端强化学习方法,用于训练大语言模型智能体生成、协调并委托给自身的递归副本(这些副本本身也可以生成其他智能体),将递归推理转化为可学习的能力。
用于分层强化学习的随机神经网络
OpenAI 研究人员提出了一个使用随机神经网络进行分层强化学习的框架,该框架通过代理奖励引导预训练有用的技能,然后利用这些技能在稀疏奖励或长期视界的下游任务中加速学习。
面向长视界语言智能体的里程碑引导策略学习
本文介绍了 BEACON,这是一种旨在改善长视界语言智能体的信用分配和采样效率的里程碑引导策略学习框架。在 ALFWorld、WebShop 和 ScienceWorld 等基准测试上,该框架表现出显著优于 GRPO 和 GiGPO 的性能提升。