第三人称模仿学习

OpenAI Blog 2017/03/06 08:00 论文

摘要

OpenAI 提出了一种无监督第三人称模仿学习方法，使智能体能够从不同视角的演示中学习，无需显式的状态对应，利用域混淆技术来学习视角无关的特征。

暂无内容

查看缓存全文

缓存时间: 2026/04/20 14:56

# 第三人称模仿学习来源: https://openai.com/index/third-person-imitation-learning/ ## 摘要强化学习（RL）使得训练能够在复杂且不确定的环境中实现精细目标的智能体成为可能。强化学习中的一个关键难点是为智能体指定优化目标的奖励函数。传统上，RL 中的模仿学习被用来克服这一问题。不幸的是，迄今为止的模仿学习方法往往要求演示来自第一人称视角：智能体被提供一系列状态和应该采取的动作规范。虽然这种方法很强大，但它受到收集第一人称演示这个相对困难的问题的限制。人类通过从第三人称演示中学习来解决这个问题：他们观察其他人执行任务，推断出任务，然后自己完成相同的任务。在本文中，我们提出了一种无监督第三人称模仿学习的方法。这里的第三人称是指训练智能体从不同视角观察教师演示并正确实现简单环境中的简单目标；无监督是指智能体仅接收这些第三人称演示，不提供教师状态和学生状态之间的对应关系。我们方法的主要洞见是可以利用域混淆的最新进展来产生域不可知的特征，这在训练过程中至关重要。为了验证我们的方法，我们在点质量域、到达域和倒立摆上报告了从第三人称演示学习的成功实验。

第三人称模仿学习

相似文章

单次模仿学习

学习建模他人思维

学习的机器人

从人类偏好中学习

用于基于图像的机器人学习的非对称演员-评论家方法

提交意见反馈