第三人称模仿学习

OpenAI Blog 论文

摘要

OpenAI 提出了一种无监督第三人称模仿学习方法,使智能体能够从不同视角的演示中学习,无需显式的状态对应,利用域混淆技术来学习视角无关的特征。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:56

# 第三人称模仿学习 来源: https://openai.com/index/third-person-imitation-learning/ ## 摘要 强化学习(RL)使得训练能够在复杂且不确定的环境中实现精细目标的智能体成为可能。强化学习中的一个关键难点是为智能体指定优化目标的奖励函数。传统上,RL 中的模仿学习被用来克服这一问题。不幸的是,迄今为止的模仿学习方法往往要求演示来自第一人称视角:智能体被提供一系列状态和应该采取的动作规范。虽然这种方法很强大,但它受到收集第一人称演示这个相对困难的问题的限制。人类通过从第三人称演示中学习来解决这个问题:他们观察其他人执行任务,推断出任务,然后自己完成相同的任务。 在本文中,我们提出了一种无监督第三人称模仿学习的方法。这里的第三人称是指训练智能体从不同视角观察教师演示并正确实现简单环境中的简单目标;无监督是指智能体仅接收这些第三人称演示,不提供教师状态和学生状态之间的对应关系。我们方法的主要洞见是可以利用域混淆的最新进展来产生域不可知的特征,这在训练过程中至关重要。为了验证我们的方法,我们在点质量域、到达域和倒立摆上报告了从第三人称演示学习的成功实验。

相似文章

单次模仿学习

OpenAI Blog

OpenAI 提出了一个元学习框架,用于单次模仿学习,使机器人能够从单个演示中学习新任务,并泛化到新实例而无需任务特定的工程设计。该方法使用软注意力机制,使在多样化任务对上训练的神经网络能够在测试时对看不见的任务表现良好。

学习建模他人思维

OpenAI Blog

OpenAI 和牛津大学研究人员提出了 LOLA(Learning with Opponent-Learning Awareness),这是一种强化学习方法,使智能体能够建模并考虑其他智能体的学习,在迭代囚徒困境和硬币游戏等多智能体博弈中发现合作策略。

学习的机器人

OpenAI Blog

# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述⁠\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟

从人类偏好中学习

OpenAI Blog

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。

用于基于图像的机器人学习的非对称演员-评论家方法

OpenAI Blog

OpenAI 提出了一种用于机器人学习的非对称演员-评论家方法,该方法利用模拟器中的完全状态可观性来训练在部分观察(RGBD 图像)上运行的策略,无需真实世界的训练数据即可实现有效的仿真到现实的转移。