标签
OpenAI 推出了视频预训练(VPT),这是一种半监督方法,通过学习 70,000 小时的未标注人类游戏视频和少量标注数据集来训练神经网络玩 Minecraft。该模型使用原生人类界面(键盘和鼠标)学习复杂的序列任务,展示了制作钻石工具和柱子跳跃等能力,代表了朝向通用计算机使用代理的进步。
本文分析了一篇近期发表的学术论文,该论文为模仿学习算法提供了一个分类框架,通过矩匹配技术对这些算法进行分类,并分析其理论模仿差距界限。
本文介绍了行为克隆(Behavioral Cloning),这是一种模仿学习技术,用于从专家演示中训练策略。文章讨论了其在最大似然估计中的理论基础,以及其在 AlphaGo 等历史应用中的使用情况。
OpenAI 展示了一种通过单个人类演示来训练强化学习智能体玩蒙特祖玛的复仇的方法,通过课程学习和仔细的超参数调优来解决稀疏奖励的挑战。该方法在这款臭名昭著的 Atari 游戏上取得了强劲表现,但在其他游戏上的泛化能力有限。
# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟
OpenAI 提出了一个元学习框架,用于单次模仿学习,使机器人能够从单个演示中学习新任务,并泛化到新实例而无需任务特定的工程设计。该方法使用软注意力机制,使在多样化任务对上训练的神经网络能够在测试时对看不见的任务表现良好。
OpenAI 提出了一种无监督第三人称模仿学习方法,使智能体能够从不同视角的演示中学习,无需显式的状态对应,利用域混淆技术来学习视角无关的特征。