学习的机器人

OpenAI Blog 2017/05/16 07:00 论文

robotics imitation-learning neural-networks computer-vision simulation openai

摘要

# 学习的机器人来源：[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动：视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像，并输出表示物体位置的状态。如[前所述⁠\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/)，视觉网络使用数十万个模拟

我们创建了一个机器人系统，它完全在模拟环境中训练，部署在物理机器人上，能够在看到一次任务演示后学会执行新任务。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:56

# 学会学习的机器人来源：https://openai.com/index/robots-that-learn/ 该系统由两个神经网络驱动：一个视觉网络和一个模仿网络。视觉网络从机器人摄像头获取图像，并输出表示物体位置的状态。如之前所述（https://blog.openai.com/spam-detection-in-the-physical-world/），视觉网络使用数十万张模拟图像进行训练，这些图像具有不同的光照、纹理和物体扰动。（视觉系统从不在真实图像上进行训练。）模仿网络观察一个示范，处理它以推断任务的意图，然后从另一个起始配置开始执行该意图。因此，模仿网络必须将示范泛化到新的设置。但模仿网络如何知道如何进行泛化呢？网络从训练示例的分布中学习这一点。它在数十个不同的任务上进行训练，每个任务有数千个示范。每个训练示例是一对执行相同任务的示范。网络被给予第一个示范的全部内容和第二个示范的单个观察。然后我们使用监督学习来预测示范者在该观察处采取的行动。为了有效预测行动，机器人必须学习如何从第一个示范中推断出任务的相关部分。应用于堆积方块时，训练数据由成对的轨迹组成，这些轨迹将方块按相同的顺序堆积成匹配的塔，但从不同的起始状态开始。通过这种方式，模仿网络学会匹配示范者的方块顺序和塔的大小，而无需担心塔的相对位置。

学习的机器人

相似文章

单次模仿学习

OpenAI Robotics Symposium 2019

Roboschool

AI编程代理可自主指导机器人训练

机器人研究的关键要素

提交意见反馈