用于基于图像的机器人学习的非对称演员-评论家方法

OpenAI Blog 2017/10/18 07:00 论文

摘要

OpenAI 提出了一种用于机器人学习的非对称演员-评论家方法，该方法利用模拟器中的完全状态可观性来训练在部分观察（RGBD 图像）上运行的策略，无需真实世界的训练数据即可实现有效的仿真到现实的转移。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:46

# 用于基于图像的机器人学习的非对称演员评论家来源：https://openai.com/index/asymmetric-actor-critic-for-image-based-robot-learning/ ## 摘要深度强化学习（RL）已被证明是许多序列决策领域中的强大技术。然而，机器人学给强化学习带来了许多挑战，最值得注意的是在物理系统上进行训练可能成本高昂且危险，这激发了人们对使用物理模拟器学习控制策略的浓厚兴趣。虽然最近的几项工作展示了将在模拟中训练的策略转移到真实世界的有希望的结果，但它们通常没有充分利用在模拟器中工作的优势。在这项工作中，我们利用模拟器中的完整状态可观性来训练更好的策略，这些策略仅以部分观测（RGBD 图像）作为输入。我们通过采用演员-评论家训练算法来实现这一点，其中评论家在完整状态上进行训练，而演员（或策略）获得渲染的图像作为输入。我们在一系列模拟任务中进行实验，表明使用这些非对称输入能显著改善性能。最后，我们将此方法与域随机化相结合，并展示了几个任务（如抓取、推动和移动物块）的真实机器人实验。我们在没有任何真实世界数据训练的情况下实现了从模拟到真实世界的转移。

用于基于图像的机器人学习的非对称演员-评论家方法

相似文章

通过动力学随机化实现机器人控制的仿真到现实迁移

趣味性自主机器人学习

策略感知模拟器学习的理论基础与高效算法

学习的机器人

从仿真泛化

提交意见反馈