第三人称模仿学习
摘要
OpenAI 提出了一种无监督第三人称模仿学习方法,使智能体能够从不同视角的演示中学习,无需显式的状态对应,利用域混淆技术来学习视角无关的特征。
查看缓存全文
缓存时间: 2026/04/20 14:56
相似文章
单次模仿学习
OpenAI 提出了一个元学习框架,用于单次模仿学习,使机器人能够从单个演示中学习新任务,并泛化到新实例而无需任务特定的工程设计。该方法使用软注意力机制,使在多样化任务对上训练的神经网络能够在测试时对看不见的任务表现良好。
学习建模他人思维
OpenAI 和牛津大学研究人员提出了 LOLA(Learning with Opponent-Learning Awareness),这是一种强化学习方法,使智能体能够建模并考虑其他智能体的学习,在迭代囚徒困境和硬币游戏等多智能体博弈中发现合作策略。
学习的机器人
# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟
从人类偏好中学习
OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。
用于基于图像的机器人学习的非对称演员-评论家方法
OpenAI 提出了一种用于机器人学习的非对称演员-评论家方法,该方法利用模拟器中的完全状态可观性来训练在部分观察(RGBD 图像)上运行的策略,无需真实世界的训练数据即可实现有效的仿真到现实的转移。