world-modeling

标签

Cards List
#world-modeling

@samsja19: 非常激动人心的工作,旨在弥合强化学习与中期/预训练之间的差距。你可以从环境中学习,超越奖励信号……

X AI KOLs Following · 4天前 缓存

一种名为ECHO的新方法通过在使用工具调用输出上进行下一个词预测,从环境中学习超越奖励信号,将世界建模与代理行为相结合,从而弥合了强化学习与预训练之间的差距。

0 人收藏 0 人点赞
#world-modeling

语言代理的策略与世界模型协同训练

Hugging Face Daily Papers · 2026-06-01 缓存

本文介绍PaW,一种协同训练框架,在在线策略强化学习(on-policy RL)轨迹中向策略学习添加辅助世界模型监督,无需额外计算开销即可改进语言代理的训练。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈