大规模好奇心驱动学习研究
摘要
OpenAI 展示了一项大规模实证研究,研究了在 54 个基准环境中不依赖外在奖励的好奇心驱动强化学习,展现了强大的性能,并探讨了特征空间在基于预测的奖励信号中的作用。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:45
# 大规模好奇心驱动学习研究
来源: https://openai.com/index/large-scale-study-of-curiosity-driven-learning/
OpenAI
## 摘要
强化学习算法依赖于精心设计的、外部于智能体的环境奖励。然而,为每个环境手动设计密集奖励并不可扩展,这促使我们需要开发智能体内部的奖励函数。好奇心是一种内部奖励函数,它使用预测误差作为奖励信号。在本论文中:(a) 我们在 54 个标准基准环境(包括 Atari 游戏套件)上进行了首次大规模纯好奇心驱动学习研究,即完全没有任何外部奖励。我们的结果显示出令人惊讶的良好表现,以及内部好奇心目标与许多游戏环境手动设计的外部奖励之间的高度一致性。(b) 我们调查了使用不同特征空间计算预测误差的效果,结果表明随机特征对于许多流行的强化学习游戏基准足够,但学习的特征似乎能更好地泛化(例如泛化到超级马里奥兄弟中的新游戏关卡)。(c) 我们演示了预测型奖励在随机设置中的局限性。游戏视频和代码位于 https://pathak22.github.io/large-scale-curiosity/。
相似文章
基于预测奖励的强化学习
OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。
#探索:深度强化学习中基于计数的探索方法研究
OpenAI研究人员展示了一种使用哈希码的简单计数型探索方法,在高维深度强化学习基准测试中可以达到近似最优性能,这挑战了计数型方法无法扩展到连续状态空间的传统假设。
@OpenAI:随着AI承担更长、风险更高的任务,我们希望模型能够将有益且安全的行为推广到新的领域,超越训练范围……
OpenAI发布了关于强化学习的研究,用于训练模型展现出诚实和可纠正性等有益特质,表明这种训练能够跨领域泛化,并在对抗性压力下持续存在。
强化学习走向广泛且持久的受益模型(22分钟阅读)
OpenAI研究人员表明,针对有益特质(诚实、透明、可纠正性)在现实场景中进行强化学习,能在数十个对齐基准上产生广泛改进,且这些改进能够泛化到训练领域之外,并在对抗压力下持续存在。
从人类偏好中学习
OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。