从仿真泛化

OpenAI Blog 2017/10/19 07:00 论文

摘要

# 从仿真泛化来源: [https://openai.com/index/generalizing-from-simulation/](https://openai.com/index/generalizing-from-simulation/) 仿真机器人的强化学习成果充斥市场，这可能会给人一种印象，即强化学习能轻松解决大多数机器人任务。但常见的强化学习算法只在那些对动作的小幅扰动能带来奖励增量变化的任务中表现良好。一些机器人任务具有简单的奖励函数，比如行走任务，可以根据行进距离来评分

我们最新的机器人技术能够让完全在仿真环境中训练的机器人控制器部署到真实机器人上，并对环境中的计划外变化做出反应以完成简单任务。也就是说，我们用这些技术构建了闭环系统，而不是之前的开环系统。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:56

# 从模拟泛化来源：https://openai.com/index/generalizing-from-simulation/ RL 在模拟机器人上获得的丰硕成果可能会让人觉得 RL 可以轻松解决大多数机器人任务。但通常的 RL 算法只在这样的任务上表现良好：对动作的微小扰动能够对奖励造成增量式的改变。某些机器人任务具有简单的奖励，比如行走，你可以根据行进距离得分。但大多数任务则不然 (https://openai.com/index/learning-from-human-preferences/)——要为堆放积木定义稠密奖励，你需要编码机械臂离积木有多近、机械臂以正确的方向接近积木、积木离开地面、积木到目标位置的距离等。我们花费了数月时间尝试在拾取放置任务上运用传统 RL 算法，但都没有成功，最终开发了一种新的强化学习算法，[Hindsight Experience Replay](https://arxiv.org/pdf/1707.01495.pdf)(HER)，它允许智能体通过假装失败就是他们本想做的事情，从而从二元奖励中学习。（类比来说，想象你在找加油站但最后到了披萨店。你仍然不知道去哪里加油，但你现在学到了去哪里吃披萨。）我们还在视觉形状上使用了[域随机化](https://openai.com/index/spam-detection-in-the-physical-world/)，以学到一个足够鲁棒的视觉系统来适应物理世界。我们的 HER 实现使用了带有非对称信息的 actor-critic 技术。（*actor* 是策略，*critic* 是一个接收动作/状态对并估计其 Q 值（即未来奖励之和）的网络，为 actor 提供训练信号。）虽然 critic 可以访问模拟器的完整状态，但 actor 只能访问 RGB 和深度数据。因此 critic 可以提供完全准确的反馈，而 actor 只使用现实世界中存在的数据。

从仿真泛化

相似文章

机器人研究的关键要素

后见之明经验回放

必须快速学习：强化学习泛化能力的新基准

通过动力学随机化实现机器人控制的仿真到现实迁移

基于预测奖励的强化学习

提交意见反馈