用于基于图像的机器人学习的非对称演员-评论家方法

OpenAI Blog 论文

摘要

OpenAI 提出了一种用于机器人学习的非对称演员-评论家方法,该方法利用模拟器中的完全状态可观性来训练在部分观察(RGBD 图像)上运行的策略,无需真实世界的训练数据即可实现有效的仿真到现实的转移。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:46

# 用于基于图像的机器人学习的非对称演员评论家 来源:https://openai.com/index/asymmetric-actor-critic-for-image-based-robot-learning/ ## 摘要 深度强化学习(RL)已被证明是许多序列决策领域中的强大技术。然而,机器人学给强化学习带来了许多挑战,最值得注意的是在物理系统上进行训练可能成本高昂且危险,这激发了人们对使用物理模拟器学习控制策略的浓厚兴趣。虽然最近的几项工作展示了将在模拟中训练的策略转移到真实世界的有希望的结果,但它们通常没有充分利用在模拟器中工作的优势。在这项工作中,我们利用模拟器中的完整状态可观性来训练更好的策略,这些策略仅以部分观测(RGBD 图像)作为输入。我们通过采用演员-评论家训练算法来实现这一点,其中评论家在完整状态上进行训练,而演员(或策略)获得渲染的图像作为输入。我们在一系列模拟任务中进行实验,表明使用这些非对称输入能显著改善性能。最后,我们将此方法与域随机化相结合,并展示了几个任务(如抓取、推动和移动物块)的真实机器人实验。我们在没有任何真实世界数据训练的情况下实现了从模拟到真实世界的转移。

相似文章

通过动力学随机化实现机器人控制的仿真到现实迁移

OpenAI Blog

OpenAI 研究人员演示了一种通过使用随机化的模拟器动力学来训练策略,从而弥合现实差距的方法。这使得完全在仿真环境中训练的机器人能够成功迁移到现实世界任务,如物体操作,无需进行物理训练。

学习的机器人

OpenAI Blog

# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述⁠\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟

从仿真泛化

OpenAI Blog

# 从仿真泛化 来源: [https://openai.com/index/generalizing-from-simulation/](https://openai.com/index/generalizing-from-simulation/) 仿真机器人的强化学习成果充斥市场,这可能会给人一种印象,即强化学习能轻松解决大多数机器人任务。但常见的强化学习算法只在那些对动作的小幅扰动能带来奖励增量变化的任务中表现良好。一些机器人任务具有简单的奖励函数,比如行走任务,可以根据行进距离来评分

竞争性自我对弈

OpenAI Blog

OpenAI 证明在模拟 3D 机器人环境中进行竞争性自我对弈,能够使 AI 智能体在没有明确指导的情况下发现复杂的物理行为,如铲球、躲闪和虚晃等,表明自我对弈将成为未来强大 AI 系统的基础。

神经网络策略的对抗性攻击

OpenAI Blog

OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。