从单个演示中学习蒙特祖玛的复仇

OpenAI Blog 2018/07/04 07:00 论文

摘要

OpenAI 展示了一种通过单个人类演示来训练强化学习智能体玩蒙特祖玛的复仇的方法，通过课程学习和仔细的超参数调优来解决稀疏奖励的挑战。该方法在这款臭名昭著的 Atari 游戏上取得了强劲表现，但在其他游戏上的泛化能力有限。

我们训练了一个智能体，在蒙特祖玛的复仇上从单个人类演示中实现了 74,500 的高分，超过了之前发布的任何成果。我们的算法很简单：智能体从演示中精心选择的状态开始玩一系列游戏，通过使用 PPO 优化游戏分数来从中学习，PPO 是支撑 OpenAI Five 的同一强化学习算法。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:55

# 从单一演示中学习蒙特苏玛的复仇来源：https://openai.com/index/learning-montezumas-revenge-from-a-single-demonstration/ 策略梯度和Q学习等无模型强化学习方法通过随机采取行动来探索。如果随机行动恰好导致获得奖励，这些行动就会被*强化*，代理在未来更可能采取这些有益的行动。当奖励足够密集，使得随机行动以合理的概率导致奖励时，这种方法效果很好。然而，许多更复杂的游戏需要很长的特定行动序列才能获得任何奖励，而这样的序列极不可能随机出现。虽然我们的代理进行的逐步学习比从零开始学习简单得多，但仍然远非平凡。我们的强化学习代理面临的一个挑战是，当从演示中的较早状态开始时，它通常无法到达后来的确切状态。这是因为代理以不同的帧跳率运行游戏，而我们用于录制演示的帧跳率不同，但也由于行动中的随机性使其极不可能准确重现任何特定的行动序列。因此，代理需要能够在非常相似但不完全相同的状态之间进行泛化。我们发现这对蒙特苏玛的复仇效果很好，但对我们尝试的其他一些雅达利游戏（如重力战和陷阱）效果差得多。其中一个原因可能是这些后来的游戏需要解决更难的视觉问题：我们发现这些游戏在缩小采样的屏幕上很难玩，当使用更大和更深的神经网络策略时我们看到了一些改进。我们遇到的另一个挑战是标准强化学习算法如策略梯度需要在探索和利用之间达到微妙的平衡：如果代理的行动过于随机，在从游戏开始时它会犯太多错误，无法达到所需的最终分数；如果行动过于确定性，代理会停止学习，因为它不会探索替代行动。因此，在蒙特苏玛的复仇上实现报告的结果需要仔细调整PPO中使用的熵奖励系数，结合其他超参数如学习率和奖励缩放。对于某些游戏如重力战和陷阱，我们无法找到对训练完整课程有效的超参数。该算法也仍然表现出从一次运行到另一次运行的实质性随机变化，某些运行无法在蒙特苏玛的复仇上收敛。我们希望未来的强化学习进展能产生对随机噪声和超参数选择更稳健的算法。最后，就像强化学习中经常出现的情况一样，我们发现我们的训练神经网络策略还没有达到人类玩家的泛化水平。一个[测试泛化能力的方法](https://arxiv.org/abs/1709.06009v2)是通过使行动*粘滞*来扰动策略，在每一帧以0.25的概率重复最后一个行动。使用这种评估方法，我们的训练策略在蒙特苏玛的复仇上平均获得10,000分。或者，我们可以以0.01的概率采取随机行动（对4个帧跳步重复），这导致我们策略的平均分数为8,400。根据轶事，我们发现这样的扰动也会显著降低人类玩家在蒙特苏玛的复仇上的分数，但程度较小。据我们所知，我们使用扰动策略的结果仍然比之前发表的所有结果都更好。通过从0到30个随机无操作开始扰动学习策略不会显著影响结果，大多数推理都能实现我们演示中获得的最终分数。大多数以前关于从演示中学习的工作都专注于*模仿*，这鼓励与演示中看到的行为相同，而我们已经表明通过直接优化回报可以取得良好的结果。这允许代理偏离演示的行为，让它找到人类演示者可能没有考虑过的新的令人兴奋的解决方案。通过在由演示状态重置创建的子任务课程上进行训练，我们使用这种技术解决了需要长行动序列的困难强化学习问题。

从单个演示中学习蒙特祖玛的复仇

相似文章

基于预测奖励的强化学习

从人类偏好中学习

必须快速学习：强化学习泛化能力的新基准

野外中的错误奖励函数

复古竞赛

提交意见反馈