学习的机器人

OpenAI Blog 论文

摘要

# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述⁠\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟

我们创建了一个机器人系统,它完全在模拟环境中训练,部署在物理机器人上,能够在看到一次任务演示后学会执行新任务。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:56

# 学会学习的机器人 来源:https://openai.com/index/robots-that-learn/ 该系统由两个神经网络驱动:一个视觉网络和一个模仿网络。 视觉网络从机器人摄像头获取图像,并输出表示物体位置的状态。如之前所述(https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万张模拟图像进行训练,这些图像具有不同的光照、纹理和物体扰动。(视觉系统从不在真实图像上进行训练。) 模仿网络观察一个示范,处理它以推断任务的意图,然后从另一个起始配置开始执行该意图。因此,模仿网络必须将示范泛化到新的设置。但模仿网络如何知道如何进行泛化呢? 网络从训练示例的分布中学习这一点。它在数十个不同的任务上进行训练,每个任务有数千个示范。每个训练示例是一对执行相同任务的示范。网络被给予第一个示范的全部内容和第二个示范的单个观察。然后我们使用监督学习来预测示范者在该观察处采取的行动。为了有效预测行动,机器人必须学习如何从第一个示范中推断出任务的相关部分。 应用于堆积方块时,训练数据由成对的轨迹组成,这些轨迹将方块按相同的顺序堆积成匹配的塔,但从不同的起始状态开始。通过这种方式,模仿网络学会匹配示范者的方块顺序和塔的大小,而无需担心塔的相对位置。

相似文章

单次模仿学习

OpenAI Blog

OpenAI 提出了一个元学习框架,用于单次模仿学习,使机器人能够从单个演示中学习新任务,并泛化到新实例而无需任务特定的工程设计。该方法使用软注意力机制,使在多样化任务对上训练的神经网络能够在测试时对看不见的任务表现良好。

OpenAI Robotics Symposium 2019

OpenAI Blog

OpenAI 于 2019 年 4 月 27 日举办了首届机器人研讨会,汇聚了机器人学和机器学习领域的专家,讨论学习型机器人,并展示了其类人机器人手臂如何利用视觉和强化学习来解决操作任务。

Roboschool

OpenAI Blog

OpenAI 发布 Roboschool,这是一个与 OpenAI Gym 集成的开源机器人模拟环境,包含12个环境,涵盖增强型人形机器人运动任务和 Pong 等多智能体设置。

机器人研究的关键要素

OpenAI Blog

OpenAI 推出了Hindsight Experience Replay (HER),这是一种强化学习技术,使机器人能够通过将实现的替代结果追溯性地作为成功目标来从失败的尝试中学习,即使在奖励信号稀疏的情况下也能进行学习。