标签
一种名为ECHO的新方法通过在使用工具调用输出上进行下一个词预测,从环境中学习超越奖励信号,将世界建模与代理行为相结合,从而弥合了强化学习与预训练之间的差距。
本文介绍PaW,一种协同训练框架,在在线策略强化学习(on-policy RL)轨迹中向策略学习添加辅助世界模型监督,无需额外计算开销即可改进语言代理的训练。