@cwolferesearch: 我最近读了很多关于智能体强化学习的论文。在所有工作中，唯一常用的技巧之一是动作……

X AI KOLs Timeline 2026/06/19 15:42 论文

agentic-rl action-masking world-modeling reinforcement-learning research-thread

摘要

讨论最近的智能体强化学习论文，强调动作掩码作为一种常见技术及其随着世界建模论文（如ECHO和PaW）的演变。

我最近读了很多关于智能体RL的论文。在所有工作中，唯一常用的技巧之一是动作掩码，但这种方法正在随着RL + 世界建模论文（如ECHO/PaW）的发展而演变。 🧵 [1/N] https://t.co/BiJhoJPaJa

查看原文

查看缓存全文

缓存时间: 2026/06/20 22:25

我最近读了很多关于智能体强化学习的论文。在所有工作中，唯一被广泛使用的技巧就是动作掩码，但随着像 ECHO / PaW 这样结合 RL 与世界建模的论文出现，这一方法也在不断演进。

[1/N]

动作掩码的思路是移除非 LLM 生成的 token（例如环境反馈/工具输出）对策略梯度的贡献。这基本上是智能体 RL 版的“掩码提示 token“——就像你在跑 SFT 时做的那样。动作掩码的好处已经在不同论文中得到广泛验证。因此，这个技巧几乎被最近的智能体论文普遍采用。

[2/N]

尽管动作掩码如此常见，但最近的论文表明，完全从目标函数中移除非动作 token 并非最优。我们希望 LLM 不仅能够采取行动，还能构建世界模型（即能够预测环境观察/反馈）。为此，我们需要同时对动作 token 和环境 token 进行训练，正如 ECHO / PaW 等论文所提出的那样。

[3/N]

具体来说，可以通过以下方式实现：

在这种情况下，SFT 目标被表述为具有恒定正优势的 RL，从而允许在正常的 RL 策略更新流程中实现 SFT 目标，无需额外成本。

[4/N]

这个基本技巧对性能有显著影响；下图中展示了 ECHO 的一个例子。我觉得这种方法特别有趣，因为它违背了一个普遍接受的规范（动作掩码）。我热爱这种简单而有效的技巧，它不禁让人思考：如果我们质疑默认设置，还能实现哪些性能提升！

[5/N]

以下是进一步阅读的所有链接：

Prime Intellect 关于 ECHO / PaW 的博客：https://primeintellect.ai/blog/true-agents-model-the-world…
Echo：https://arxiv.org/abs/2605.24517
PaW：https://arxiv.org/abs/2606.02388

相似文章