从单个演示中学习蒙特祖玛的复仇
摘要
OpenAI 展示了一种通过单个人类演示来训练强化学习智能体玩蒙特祖玛的复仇的方法,通过课程学习和仔细的超参数调优来解决稀疏奖励的挑战。该方法在这款臭名昭著的 Atari 游戏上取得了强劲表现,但在其他游戏上的泛化能力有限。
我们训练了一个智能体,在蒙特祖玛的复仇上从单个人类演示中实现了 74,500 的高分,超过了之前发布的任何成果。我们的算法很简单:智能体从演示中精心选择的状态开始玩一系列游戏,通过使用 PPO 优化游戏分数来从中学习,PPO 是支撑 OpenAI Five 的同一强化学习算法。
查看缓存全文
缓存时间:
2026/04/20 14:55
# 从单一演示中学习蒙特苏玛的复仇
来源:https://openai.com/index/learning-montezumas-revenge-from-a-single-demonstration/
策略梯度和Q学习等无模型强化学习方法通过随机采取行动来探索。如果随机行动恰好导致获得奖励,这些行动就会被*强化*,代理在未来更可能采取这些有益的行动。当奖励足够密集,使得随机行动以合理的概率导致奖励时,这种方法效果很好。然而,许多更复杂的游戏需要很长的特定行动序列才能获得任何奖励,而这样的序列极不可能随机出现。
虽然我们的代理进行的逐步学习比从零开始学习简单得多,但仍然远非平凡。我们的强化学习代理面临的一个挑战是,当从演示中的较早状态开始时,它通常无法到达后来的确切状态。这是因为代理以不同的帧跳率运行游戏,而我们用于录制演示的帧跳率不同,但也由于行动中的随机性使其极不可能准确重现任何特定的行动序列。因此,代理需要能够在非常相似但不完全相同的状态之间进行泛化。我们发现这对蒙特苏玛的复仇效果很好,但对我们尝试的其他一些雅达利游戏(如重力战和陷阱)效果差得多。其中一个原因可能是这些后来的游戏需要解决更难的视觉问题:我们发现这些游戏在缩小采样的屏幕上很难玩,当使用更大和更深的神经网络策略时我们看到了一些改进。
我们遇到的另一个挑战是标准强化学习算法如策略梯度需要在探索和利用之间达到微妙的平衡:如果代理的行动过于随机,在从游戏开始时它会犯太多错误,无法达到所需的最终分数;如果行动过于确定性,代理会停止学习,因为它不会探索替代行动。因此,在蒙特苏玛的复仇上实现报告的结果需要仔细调整PPO中使用的熵奖励系数,结合其他超参数如学习率和奖励缩放。对于某些游戏如重力战和陷阱,我们无法找到对训练完整课程有效的超参数。该算法也仍然表现出从一次运行到另一次运行的实质性随机变化,某些运行无法在蒙特苏玛的复仇上收敛。我们希望未来的强化学习进展能产生对随机噪声和超参数选择更稳健的算法。
最后,就像强化学习中经常出现的情况一样,我们发现我们的训练神经网络策略还没有达到人类玩家的泛化水平。一个[测试泛化能力的方法](https://arxiv.org/abs/1709.06009v2)是通过使行动*粘滞*来扰动策略,在每一帧以0.25的概率重复最后一个行动。使用这种评估方法,我们的训练策略在蒙特苏玛的复仇上平均获得10,000分。或者,我们可以以0.01的概率采取随机行动(对4个帧跳步重复),这导致我们策略的平均分数为8,400。根据轶事,我们发现这样的扰动也会显著降低人类玩家在蒙特苏玛的复仇上的分数,但程度较小。据我们所知,我们使用扰动策略的结果仍然比之前发表的所有结果都更好。通过从0到30个随机无操作开始扰动学习策略不会显著影响结果,大多数推理都能实现我们演示中获得的最终分数。
大多数以前关于从演示中学习的工作都专注于*模仿*,这鼓励与演示中看到的行为相同,而我们已经表明通过直接优化回报可以取得良好的结果。这允许代理偏离演示的行为,让它找到人类演示者可能没有考虑过的新的令人兴奋的解决方案。通过在由演示状态重置创建的子任务课程上进行训练,我们使用这种技术解决了需要长行动序列的困难强化学习问题。
相似文章
OpenAI Blog
OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。
OpenAI Blog
OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。
OpenAI Blog
OpenAI 推出了一个基于音速小子(Sonic the Hedgehog)的新型强化学习基准,用于测量 RL 智能体的迁移学习和小样本学习性能,同时包括基线算法的评估。
OpenAI Blog
OpenAI 讨论了强化学习中错误奖励函数的问题,其中智能体会利用奖励规范中的漏洞,而不是实现预期目标。本文通过赛车游戏示例探索了这一问题,并提出了包括从演示学习、人类反馈和迁移学习等研究方向,以减轻此类问题。
OpenAI Blog
OpenAI 推出了复古竞赛(Retro Contest),这是一项迁移学习竞赛,在来自经典 SEGA Genesis 游戏的未见过的视频游戏关卡上评估强化学习算法,于 2018 年 4 月至 6 月期间进行。该竞赛使用 Gym Retro 平台,包括基准实现和技术基准论文,证明当前的强化学习算法在泛化任务上的表现明显低于人类。