大规模好奇心驱动学习研究

OpenAI Blog 2018/08/13 07:00 论文

摘要

OpenAI 展示了一项大规模实证研究，研究了在 54 个基准环境中不依赖外在奖励的好奇心驱动强化学习，展现了强大的性能，并探讨了特征空间在基于预测的奖励信号中的作用。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:45

# 大规模好奇心驱动学习研究来源: https://openai.com/index/large-scale-study-of-curiosity-driven-learning/ OpenAI ## 摘要强化学习算法依赖于精心设计的、外部于智能体的环境奖励。然而，为每个环境手动设计密集奖励并不可扩展，这促使我们需要开发智能体内部的奖励函数。好奇心是一种内部奖励函数，它使用预测误差作为奖励信号。在本论文中：(a) 我们在 54 个标准基准环境（包括 Atari 游戏套件）上进行了首次大规模纯好奇心驱动学习研究，即完全没有任何外部奖励。我们的结果显示出令人惊讶的良好表现，以及内部好奇心目标与许多游戏环境手动设计的外部奖励之间的高度一致性。(b) 我们调查了使用不同特征空间计算预测误差的效果，结果表明随机特征对于许多流行的强化学习游戏基准足够，但学习的特征似乎能更好地泛化（例如泛化到超级马里奥兄弟中的新游戏关卡）。(c) 我们演示了预测型奖励在随机设置中的局限性。游戏视频和代码位于 https://pathak22.github.io/large-scale-curiosity/。

大规模好奇心驱动学习研究

相似文章

基于预测奖励的强化学习

#探索：深度强化学习中基于计数的探索方法研究

@OpenAI：随着AI承担更长、风险更高的任务，我们希望模型能够将有益且安全的行为推广到新的领域，超越训练范围……

强化学习走向广泛且持久的受益模型（22分钟阅读）

从人类偏好中学习

提交意见反馈