使用时间段模型进行预测和控制
摘要
OpenAI 推出了一种使用深度生成模型在时间段上学习复杂非线性系统动力学的方法,能够实现稳定的长期预测和可微分的轨迹优化以进行基于模型的控制。
查看缓存全文
缓存时间: 2026/04/20 14:43
相似文章
面向自回归动力系统预测的可扩展单步生成建模
本文介绍了 MeLISA,这是一种无需潜变量的自回归生成代理模型,用于预测高维物理动力学。该模型利用像素空间的 MeanFlow 实现高效的单步生成。与神经算子相比,MeLISA 在湍流基准测试中展现出更优越的长程统计精度和推理速度。
在线规划,离线学习:通过基于模型的控制实现高效学习和探索
OpenAI 提出 POLO(在线规划,离线学习)框架,结合基于模型的控制、价值函数学习和协调探索,能够在人形机器人运动和灵巧手部操纵等复杂控制任务中实现高效学习,同时最小化真实世界经验需求。
StraTA:通过策略轨迹抽象激励智能体强化学习
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
通过动力学随机化实现机器人控制的仿真到现实迁移
OpenAI 研究人员演示了一种通过使用随机化的模拟器动力学来训练策略,从而弥合现实差距的方法。这使得完全在仿真环境中训练的机器人能够成功迁移到现实世界任务,如物体操作,无需进行物理训练。
通过学习深度逆动力学模型实现从仿真到真实世界的转移
# 通过学习深度逆动力学模型实现从仿真到真实世界的转移 来源: [https://openai.com/index/transfer-from-simulation-to-real-world-through-learning-deep-inverse-dynamics-model/](https://openai.com/index/transfer-from-simulation-to-real-world-through-learning-deep-inverse-dynamics-model/) ## 摘要 在仿真环境中开发控制策略通常比直接在真实世界中运行实验更加实际和安全。这适用于从强化学习中获得的策略