从仿真泛化

OpenAI Blog 论文

摘要

# 从仿真泛化 来源: [https://openai.com/index/generalizing-from-simulation/](https://openai.com/index/generalizing-from-simulation/) 仿真机器人的强化学习成果充斥市场,这可能会给人一种印象,即强化学习能轻松解决大多数机器人任务。但常见的强化学习算法只在那些对动作的小幅扰动能带来奖励增量变化的任务中表现良好。一些机器人任务具有简单的奖励函数,比如行走任务,可以根据行进距离来评分

我们最新的机器人技术能够让完全在仿真环境中训练的机器人控制器部署到真实机器人上,并对环境中的计划外变化做出反应以完成简单任务。也就是说,我们用这些技术构建了闭环系统,而不是之前的开环系统。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:56

# 从模拟泛化 来源:https://openai.com/index/generalizing-from-simulation/ RL 在模拟机器人上获得的丰硕成果可能会让人觉得 RL 可以轻松解决大多数机器人任务。但通常的 RL 算法只在这样的任务上表现良好:对动作的微小扰动能够对奖励造成增量式的改变。某些机器人任务具有简单的奖励,比如行走,你可以根据行进距离得分。但大多数任务则不然 (https://openai.com/index/learning-from-human-preferences/)——要为堆放积木定义稠密奖励,你需要编码机械臂离积木有多近、机械臂以正确的方向接近积木、积木离开地面、积木到目标位置的距离等。 我们花费了数月时间尝试在拾取放置任务上运用传统 RL 算法,但都没有成功,最终开发了一种新的强化学习算法,[Hindsight Experience Replay](https://arxiv.org/pdf/1707.01495.pdf)(HER),它允许智能体通过假装失败就是他们本想做的事情,从而从二元奖励中学习。(类比来说,想象你在找加油站但最后到了披萨店。你仍然不知道去哪里加油,但你现在学到了去哪里吃披萨。)我们还在视觉形状上使用了[域随机化](https://openai.com/index/spam-detection-in-the-physical-world/),以学到一个足够鲁棒的视觉系统来适应物理世界。 我们的 HER 实现使用了带有非对称信息的 actor-critic 技术。(*actor* 是策略,*critic* 是一个接收动作/状态对并估计其 Q 值(即未来奖励之和)的网络,为 actor 提供训练信号。)虽然 critic 可以访问模拟器的完整状态,但 actor 只能访问 RGB 和深度数据。因此 critic 可以提供完全准确的反馈,而 actor 只使用现实世界中存在的数据。

相似文章

机器人研究的关键要素

OpenAI Blog

OpenAI 推出了Hindsight Experience Replay (HER),这是一种强化学习技术,使机器人能够通过将实现的替代结果追溯性地作为成功目标来从失败的尝试中学习,即使在奖励信号稀疏的情况下也能进行学习。

后见之明经验回放

OpenAI Blog

# 后见之明经验回放 来源:[https://openai.com/index/hindsight-experience-replay/](https://openai.com/index/hindsight-experience-replay/) ## 摘要 处理稀疏奖励是强化学习(RL)中最大的挑战之一。我们提出了一种名为后见之明经验回放的新颖技术,它允许从稀疏二元奖励中进行样本高效学习,因此避免了复杂的奖励工程设计的需要。它可以与任意组合

通过动力学随机化实现机器人控制的仿真到现实迁移

OpenAI Blog

OpenAI 研究人员演示了一种通过使用随机化的模拟器动力学来训练策略,从而弥合现实差距的方法。这使得完全在仿真环境中训练的机器人能够成功迁移到现实世界任务,如物体操作,无需进行物理训练。

基于预测奖励的强化学习

OpenAI Blog

OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。