单次模仿学习

OpenAI Blog 2017/03/21 07:00 论文

摘要

OpenAI 提出了一个元学习框架，用于单次模仿学习，使机器人能够从单个演示中学习新任务，并泛化到新实例而无需任务特定的工程设计。该方法使用软注意力机制，使在多样化任务对上训练的神经网络能够在测试时对看不见的任务表现良好。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:43

# 单次模仿学习来源：https://openai.com/index/one-shot-imitation-learning/ ## 摘要模仿学习通常被用来单独解决不同的任务，但这往往需要仔细的特征工程或大量的样本。这远不是我们想要的：理想情况下，机器人应该能够从很少的任务演示中学习，并立即推广到同一任务的新情况，而无需进行任务特定的工程设计。在本论文中，我们提出了一个元学习框架来实现这一能力，我们称之为单次模仿学习。具体来说，我们考虑的场景是：存在一个非常庞大的任务集，每个任务都有许多实例。例如，一个任务可能是将桌面上的所有块堆成一个塔，另一个任务可能是将桌面上的所有块堆成两块高的塔，等等。在每种情况下，同一任务的不同实例会包含不同的块集和不同的初始状态。在训练时，我们的算法获得任务子集的演示对。训练一个神经网络，它以一个演示和当前状态（最初是另一个演示对的初始状态）作为输入，输出一个动作，目标是使得产生的状态-动作序列尽可能与第二个演示相匹配。在测试时，展示一个新任务单个实例的演示，神经网络应该在这个新任务的新实例上表现良好。软注意力机制的使用使模型能够推广到训练数据中未见过的条件和任务。我们预期通过在更加广泛的任务和设置上训练该模型，将获得一个通用系统，能够将任何演示转化为鲁棒策略，可以完成种类繁多的任务。视频见 https://bit.ly/nips2017-oneshot（在新窗口中打开）。

单次模仿学习

相似文章

学习的机器人

第三人称模仿学习

从仿真泛化

必须快速学习：强化学习泛化能力的新基准

基于强化学习引导的软融合检索方法，用于缺失模态下的鲁棒多模态模仿学习

提交意见反馈