@samsja19: 非常激动人心的工作,旨在弥合强化学习与中期/预训练之间的差距。你可以从环境中学习,超越奖励信号……
摘要
一种名为ECHO的新方法通过在使用工具调用输出上进行下一个词预测,从环境中学习超越奖励信号,将世界建模与代理行为相结合,从而弥合了强化学习与预训练之间的差距。
非常激动人心的工作,旨在弥合强化学习与中期/预训练之间的差距。
你可以从环境中学习超越奖励信号,通过对某些工具调用输出进行下一个词预测。
查看缓存全文
缓存时间: 2026/06/12 04:51
非常激动人心的研究,填补了强化学习与预训练/中间训练之间的空白。
你可以通过对自己工具调用输出进行下一个词元预测,从环境中学习超越奖励信号的内容。
Prime Intellect(@PrimeIntellect): 真正的智能体是对世界进行建模的。
目前的训练没有将智能体与环境区分开:预训练仅训练世界建模,强化学习仅训练智能体行动。我们通过 @DimitrisPapail 和 @VaishShrivas 的 ECHO 方法将两者结合起来。
相似文章
@NoahZiems: 对我们最近在 Pedagogical RL 上的工作感到非常兴奋。我乐观地认为这样的方法将完全…
Noah Ziems 表达了对他们在 Pedagogical RL 上最近工作的兴奋之情,该工作旨在改变像编程这样复杂的智能体任务的数据收集方式。
@_djdumpling:非常令人兴奋的工作,很高兴今年夏天能在 @modal 从事强化学习工作!
用户对在 Modal 从事强化学习工作表示兴奋,并提及 Modal 发布了开源库以及在扩展强化学习训练中学到的经验。
@lateinteraction: 确实如此。但比GRPO更具可扩展性的强化学习范式的下一个突破已经到来:训练你的自教师……
介绍了教学强化学习(Pedagogical RL),这是一种新范式,模型学会利用特权信息主动采样成功且易于遵循的轨迹,从而成为自我教师,相比GRPO和同策略蒸馏方法,实现了高达40%的相对提升。
@ickma2311:CMU 高级 NLP:强化学习 我一直好奇 RL 如何作用于大模型,而这门 CMU 课程让我豁然开朗……
CMU 高级 NLP 课程讲清了强化学习如何优化整个输出的奖励(正确性、有用性、安全性),而非预训练/微调阶段的下一个 token 预测。
@charles_irl: 恰当的后训练强化学习,广泛部署,是迈向未来软件系统能悄然自我改进、适应人类需求的关键一步。
Modal 在其平台上宣布了一个开源的强化学习库,通过可扩展的部署解决后训练强化学习中的基础设施挑战。