@cwolferesearch: 我最近读了很多关于智能体强化学习的论文。在所有工作中,唯一常用的技巧之一是动作……
摘要
讨论最近的智能体强化学习论文,强调动作掩码作为一种常见技术及其随着世界建模论文(如ECHO和PaW)的演变。
查看缓存全文
缓存时间: 2026/06/20 22:25
我最近读了很多关于智能体强化学习的论文。在所有工作中,唯一被广泛使用的技巧就是动作掩码,但随着像 ECHO / PaW 这样结合 RL 与世界建模的论文出现,这一方法也在不断演进。
[1/N]
动作掩码的思路是移除非 LLM 生成的 token(例如环境反馈/工具输出)对策略梯度的贡献。这基本上是智能体 RL 版的“掩码提示 token“——就像你在跑 SFT 时做的那样。动作掩码的好处已经在不同论文中得到广泛验证。因此,这个技巧几乎被最近的智能体论文普遍采用。
[2/N]
尽管动作掩码如此常见,但最近的论文表明,完全从目标函数中移除非动作 token 并非最优。我们希望 LLM 不仅能够采取行动,还能构建世界模型(即能够预测环境观察/反馈)。为此,我们需要同时对动作 token 和环境 token 进行训练,正如 ECHO / PaW 等论文所提出的那样。
[3/N]
具体来说,可以通过以下方式实现:
- 对动作 token 使用 RL。
- 对工具响应 token 使用 SFT。
在这种情况下,SFT 目标被表述为具有恒定正优势的 RL,从而允许在正常的 RL 策略更新流程中实现 SFT 目标,无需额外成本。
[4/N]
这个基本技巧对性能有显著影响;下图中展示了 ECHO 的一个例子。我觉得这种方法特别有趣,因为它违背了一个普遍接受的规范(动作掩码)。我热爱这种简单而有效的技巧,它不禁让人思考:如果我们质疑默认设置,还能实现哪些性能提升!
[5/N]
以下是进一步阅读的所有链接:
- Prime Intellect 关于 ECHO / PaW 的博客:https://primeintellect.ai/blog/true-agents-model-the-world…
- Echo:https://arxiv.org/abs/2605.24517
- PaW:https://arxiv.org/abs/2606.02388
相似文章
@cwolferesearch: 我刚刚发表了一篇关于智能体强化学习的博客,涵盖了该领域10多个最新框架。以下是关键要点……链接……
一篇博客文章,总结了十个最新的智能体强化学习框架和最佳实践,涵盖模块化接口、轨迹结构、动作掩码、过程奖励、优势归一化、可扩展的 rollout、稳定性/探索以及任务课程。
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。
@samsja19: 非常激动人心的工作,旨在弥合强化学习与中期/预训练之间的差距。你可以从环境中学习,超越奖励信号……
一种名为ECHO的新方法通过在使用工具调用输出上进行下一个词预测,从环境中学习超越奖励信号,将世界建模与代理行为相结合,从而弥合了强化学习与预训练之间的差距。
@HuggingPapers: 本周最佳AI论文(5月25-31日):- Gamma-World: 超越双玩家的生成式多智能体世界建模 - SkillO…
精选的5月25-31日顶级AI论文综述,涵盖多智能体世界建模、视觉-语言-动作模型、智能体技能优化和对齐框架。
@lftherios:1/ @karpathy 的 autoresearch 是今年最具代表性的智能体范式之一。问题在于……
Andrej Karpathy 的 autoresearch 范式揭示:当下 AI 智能体各自为战做实验,重复劳动、浪费算力,还不断「重新发明」死路。