@samsja19: 非常激动人心的工作，旨在弥合强化学习与中期/预训练之间的差距。你可以从环境中学习，超越奖励信号……

X AI KOLs Following 2026/06/10 21:25 论文

reinforcement-learning pre-training world-modeling agentic-actions tool-calling next-token-prediction echo

摘要

一种名为ECHO的新方法通过在使用工具调用输出上进行下一个词预测，从环境中学习超越奖励信号，将世界建模与代理行为相结合，从而弥合了强化学习与预训练之间的差距。

非常激动人心的工作，旨在弥合强化学习与中期/预训练之间的差距。你可以从环境中学习超越奖励信号，通过对某些工具调用输出进行下一个词预测。

查看原文

查看缓存全文

缓存时间: 2026/06/12 04:51

非常激动人心的研究，填补了强化学习与预训练/中间训练之间的空白。

你可以通过对自己工具调用输出进行下一个词元预测，从环境中学习超越奖励信号的内容。

Prime Intellect（@PrimeIntellect）： 真正的智能体是对世界进行建模的。

目前的训练没有将智能体与环境区分开：预训练仅训练世界建模，强化学习仅训练智能体行动。我们通过 @DimitrisPapail 和 @VaishShrivas 的 ECHO 方法将两者结合起来。

相似文章

@NoahZiems: 对我们最近在 Pedagogical RL 上的工作感到非常兴奋。我乐观地认为这样的方法将完全…

X AI KOLs Following

Noah Ziems 表达了对他们在 Pedagogical RL 上最近工作的兴奋之情，该工作旨在改变像编程这样复杂的智能体任务的数据收集方式。

@_djdumpling：非常令人兴奋的工作，很高兴今年夏天能在 @modal 从事强化学习工作！

X AI KOLs Timeline

用户对在 Modal 从事强化学习工作表示兴奋，并提及 Modal 发布了开源库以及在扩展强化学习训练中学到的经验。

@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来：训练你的自教师……

X AI KOLs Following

介绍了教学强化学习（Pedagogical RL），这是一种新范式，模型学会利用特权信息主动采样成功且易于遵循的轨迹，从而成为自我教师，相比GRPO和同策略蒸馏方法，实现了高达40%的相对提升。

@ickma2311：CMU 高级 NLP：强化学习我一直好奇 RL 如何作用于大模型，而这门 CMU 课程让我豁然开朗……

X AI KOLs Timeline

CMU 高级 NLP 课程讲清了强化学习如何优化整个输出的奖励（正确性、有用性、安全性），而非预训练/微调阶段的下一个 token 预测。

@charles_irl: 恰当的后训练强化学习，广泛部署，是迈向未来软件系统能悄然自我改进、适应人类需求的关键一步。

X AI KOLs Following

Modal 在其平台上宣布了一个开源的强化学习库，通过可扩展的部署解决后训练强化学习中的基础设施挑战。

提交意见反馈