单次模仿学习
摘要
OpenAI 提出了一个元学习框架,用于单次模仿学习,使机器人能够从单个演示中学习新任务,并泛化到新实例而无需任务特定的工程设计。该方法使用软注意力机制,使在多样化任务对上训练的神经网络能够在测试时对看不见的任务表现良好。
查看缓存全文
缓存时间: 2026/04/20 14:43
相似文章
学习的机器人
# 学习的机器人 来源:[https://openai.com/index/robots-that-learn/](https://openai.com/index/robots-that-learn/) 该系统由两个神经网络驱动:视觉网络和模仿网络。视觉网络接收来自机器人摄像头的图像,并输出表示物体位置的状态。如[前所述\(在新窗口中打开\)](https://blog.openai.com/spam-detection-in-the-physical-world/),视觉网络使用数十万个模拟
第三人称模仿学习
OpenAI 提出了一种无监督第三人称模仿学习方法,使智能体能够从不同视角的演示中学习,无需显式的状态对应,利用域混淆技术来学习视角无关的特征。
从仿真泛化
# 从仿真泛化 来源: [https://openai.com/index/generalizing-from-simulation/](https://openai.com/index/generalizing-from-simulation/) 仿真机器人的强化学习成果充斥市场,这可能会给人一种印象,即强化学习能轻松解决大多数机器人任务。但常见的强化学习算法只在那些对动作的小幅扰动能带来奖励增量变化的任务中表现良好。一些机器人任务具有简单的奖励函数,比如行走任务,可以根据行进距离来评分
必须快速学习:强化学习泛化能力的新基准
OpenAI 推出了一个基于音速小子(Sonic the Hedgehog)的新型强化学习基准,用于测量 RL 智能体的迁移学习和小样本学习性能,同时包括基线算法的评估。
基于强化学习引导的软融合检索方法,用于缺失模态下的鲁棒多模态模仿学习
RL4IL 提出了一种强化学习引导的检索方法,利用对冻结演示库的软融合来处理推理时机器人模仿学习中的传感器模态缺失问题,在完全摄像头丢失的情况下实现了高成功率。