进化策略作为强化学习的可扩展替代方案

OpenAI Blog 2017/03/24 07:00 论文

摘要

OpenAI 提出进化策略（ES）作为一种可扩展的黑箱优化方法，可替代强化学习用于训练神经网络策略。进化策略通过将策略训练视为随机参数搜索来简化优化问题，该搜索基于奖励反馈反复采样并选择更优的参数配置。

我们发现进化策略（ES）这种已知数十年的优化技术，在现代强化学习基准测试（如 Atari/MuJoCo）上的性能可与标准强化学习技术相媲美，同时克服了强化学习的许多不便之处。

查看缓存全文

缓存时间: 2026/04/20 14:45

# 演化策略作为强化学习的可扩展替代方案来源：https://openai.com/index/evolution-strategies/ 让我们简要了解强化学习的工作原理。假设我们有一个想要训练智能体的环境（比如一个游戏）。为了描述智能体的行为，我们定义一个策略函数（智能体的"大脑"），它计算智能体在任何给定情况下应该如何行动。在实践中，策略通常是一个神经网络，它接受游戏的当前状态作为输入，并计算采取任何允许操作的概率。典型的策略函数可能有大约 100 万个参数，所以我们的任务归结为找到这些参数的精确设置，使得策略能够很好地玩游戏（即赢得很多游戏）。策略的训练过程如下。从随机初始化开始，我们让智能体与环境交互一段时间，并收集交互的回合（例如每个回合是一局 Pong）。因此，我们获得了发生的一切的完整记录：我们遇到的状态序列、在每个状态中采取的操作，以及每一步获得的奖励。例如，下面是一个假设环境中三个回合的图表，每个回合有 10 个时间步。每个矩形是一个状态，如果奖励为正（例如我们刚刚把球传过对手），矩形就会被着色为绿色，如果奖励为负（例如我们没接到球），就会被着色为红色。 **关于"演化"**。在深入研究 ES 方法之前，需要注意的是，尽管有"演化"这个词，ES 与生物进化的关系很小。这些技术的早期版本可能受到生物进化的启发，该方法在抽象层面上可以被看作是对一个种群进行采样，并让成功的个体指导未来世代的分布。然而，数学细节从生物进化中抽象化得非常彻底，因此最好把 ES 简单地看作一类黑箱随机优化技术。 **黑箱优化**。在 ES 中，我们完全忘记了有智能体、环境、涉及神经网络或随时间交互等因素。整个设置是 100 万个数字（碰巧描述了策略网络的参数）作为输入，1 个数字（总奖励）作为输出，我们想找到这 100 万个数字的最佳设置。从数学上讲，我们说我们相对于输入向量 w（网络的参数/权重）优化函数 f(w)，但我们对 f 的结构没有作任何假设，除了我们可以评估它（因此称为"黑箱"）。 **ES 算法**。直观地说，优化是一个"猜测和检查"的过程，我们从一些随机参数开始，然后反复 1) 随机稍微调整猜测，2) 将我们的猜测略微移向效果更好的调整。具体来说，在每一步我们取一个参数向量 w，并通过用高斯噪声抖动 w 来生成 100 个略微不同的参数向量 w1...w100 的种群。然后我们通过在环境中运行相应的策略网络一段时间，独立评估 100 个候选中的每一个，并在每种情况下将所有奖励加总。更新的参数向量随后成为这 100 个向量的加权和，其中每个权重与总奖励成比例（即我们希望更成功的候选者具有更高的权重）。从数学上讲，你会注意到这等价于使用有限差分法估计参数空间中预期奖励的梯度，除了我们只沿 100 个随机方向这样做。另一种看待它的方式是，我们仍在进行强化学习（具体来说是[策略梯度或 REINFORCE](http://www-anw.cs.umass.edu/~barto/courses/cs687/williams92simple.pdf)），其中智能体的行动是使用高斯策略发出整个参数向量。 **在参数中注入噪声**。注意目标与强化学习优化的目标相同：预期奖励。然而，强化学习在动作空间中注入噪声，并使用反向传播来计算参数更新，而 ES 直接在参数空间中注入噪声。另一种描述方式是，强化学习是对动作的"猜测和检查"，而 ES 是对参数的"猜测和检查"。由于我们在参数中注入噪声，可以使用确定性策略（我们在实验中确实这样做）。也可以在动作和参数中都添加噪声，以可能结合两种方法。

进化策略作为强化学习的可扩展替代方案

相似文章

进化策略梯度

通过参数噪声实现更好的探索

EvoMap/evolver

关于通过元强化学习学习探索的一些思考

通过大型模型的演化

提交意见反馈