@cwolferesearch: 我最近读了很多关于智能体强化学习的论文。在所有工作中,唯一常用的技巧之一是动作……

X AI KOLs Timeline 论文

摘要

讨论最近的智能体强化学习论文,强调动作掩码作为一种常见技术及其随着世界建模论文(如ECHO和PaW)的演变。

我最近读了很多关于智能体RL的论文。在所有工作中,唯一常用的技巧之一是动作掩码,但这种方法正在随着RL + 世界建模论文(如ECHO/PaW)的发展而演变。 🧵 [1/N] https://t.co/BiJhoJPaJa
查看原文
查看缓存全文

缓存时间: 2026/06/20 22:25

我最近读了很多关于智能体强化学习的论文。在所有工作中,唯一被广泛使用的技巧就是动作掩码,但随着像 ECHO / PaW 这样结合 RL 与世界建模的论文出现,这一方法也在不断演进。

[1/N]

动作掩码的思路是移除非 LLM 生成的 token(例如环境反馈/工具输出)对策略梯度的贡献。这基本上是智能体 RL 版的“掩码提示 token“——就像你在跑 SFT 时做的那样。动作掩码的好处已经在不同论文中得到广泛验证。因此,这个技巧几乎被最近的智能体论文普遍采用。

[2/N]

尽管动作掩码如此常见,但最近的论文表明,完全从目标函数中移除非动作 token 并非最优。我们希望 LLM 不仅能够采取行动,还能构建世界模型(即能够预测环境观察/反馈)。为此,我们需要同时对动作 token 和环境 token 进行训练,正如 ECHO / PaW 等论文所提出的那样。

[3/N]

具体来说,可以通过以下方式实现:

  1. 对动作 token 使用 RL。
  2. 对工具响应 token 使用 SFT。

在这种情况下,SFT 目标被表述为具有恒定正优势的 RL,从而允许在正常的 RL 策略更新流程中实现 SFT 目标,无需额外成本。

[4/N]

这个基本技巧对性能有显著影响;下图中展示了 ECHO 的一个例子。我觉得这种方法特别有趣,因为它违背了一个普遍接受的规范(动作掩码)。我热爱这种简单而有效的技巧,它不禁让人思考:如果我们质疑默认设置,还能实现哪些性能提升!

[5/N]

以下是进一步阅读的所有链接:

  • Prime Intellect 关于 ECHO / PaW 的博客:https://primeintellect.ai/blog/true-agents-model-the-world…
  • Echo:https://arxiv.org/abs/2605.24517
  • PaW:https://arxiv.org/abs/2606.02388

相似文章

从动作引导中学习智能体策略

arXiv cs.CL

本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。