单次模仿学习

OpenAI Blog 论文

摘要

OpenAI 提出了一个元学习框架,用于单次模仿学习,使机器人能够从单个演示中学习新任务,并泛化到新实例而无需任务特定的工程设计。该方法使用软注意力机制,使在多样化任务对上训练的神经网络能够在测试时对看不见的任务表现良好。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:43

# 单次模仿学习 来源:https://openai.com/index/one-shot-imitation-learning/ ## 摘要 模仿学习通常被用来单独解决不同的任务,但这往往需要仔细的特征工程或大量的样本。这远不是我们想要的:理想情况下,机器人应该能够从很少的任务演示中学习,并立即推广到同一任务的新情况,而无需进行任务特定的工程设计。在本论文中,我们提出了一个元学习框架来实现这一能力,我们称之为单次模仿学习。 具体来说,我们考虑的场景是:存在一个非常庞大的任务集,每个任务都有许多实例。例如,一个任务可能是将桌面上的所有块堆成一个塔,另一个任务可能是将桌面上的所有块堆成两块高的塔,等等。在每种情况下,同一任务的不同实例会包含不同的块集和不同的初始状态。在训练时,我们的算法获得任务子集的演示对。训练一个神经网络,它以一个演示和当前状态(最初是另一个演示对的初始状态)作为输入,输出一个动作,目标是使得产生的状态-动作序列尽可能与第二个演示相匹配。在测试时,展示一个新任务单个实例的演示,神经网络应该在这个新任务的新实例上表现良好。软注意力机制的使用使模型能够推广到训练数据中未见过的条件和任务。我们预期通过在更加广泛的任务和设置上训练该模型,将获得一个通用系统,能够将任何演示转化为鲁棒策略,可以完成种类繁多的任务。 视频见 https://bit.ly/nips2017-oneshot(在新窗口中打开)。

相似文章

学习的机器人

OpenAI Blog

# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述⁠\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟

第三人称模仿学习

OpenAI Blog

OpenAI 提出了一种无监督第三人称模仿学习方法,使智能体能够从不同视角的演示中学习,无需显式的状态对应,利用域混淆技术来学习视角无关的特征。

从仿真泛化

OpenAI Blog

# 从仿真泛化 来源: [https://openai.com/index/generalizing-from-simulation/](https://openai.com/index/generalizing-from-simulation/) 仿真机器人的强化学习成果充斥市场,这可能会给人一种印象,即强化学习能轻松解决大多数机器人任务。但常见的强化学习算法只在那些对动作的小幅扰动能带来奖励增量变化的任务中表现良好。一些机器人任务具有简单的奖励函数,比如行走任务,可以根据行进距离来评分