标签
OpenAI 提出 POLO(在线规划,离线学习)框架,结合基于模型的控制、价值函数学习和协调探索,能够在人形机器人运动和灵巧手部操纵等复杂控制任务中实现高效学习,同时最小化真实世界经验需求。
OpenAI 推出了一种使用深度生成模型在时间段上学习复杂非线性系统动力学的方法,能够实现稳定的长期预测和可微分的轨迹优化以进行基于模型的控制。