进化策略梯度

OpenAI Blog 2018/04/18 07:00 论文

摘要

OpenAI 推出进化策略梯度（EPG），这是一种元学习方法，通过进化而非直接学习策略来学习损失函数，使强化学习代理能够通过利用类似人类技能迁移的先验经验，更好地跨任务泛化。

我们发布了一个实验性元学习方法，称为进化策略梯度，这是一种通过进化学习代理损失函数的方法，可以实现对新任务的快速训练。使用 EPG 训练的代理可以在测试时成功完成超出其训练范围的基础任务，例如学习导航到房间不同位置的对象，而该对象在训练期间被放置在其他位置。

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:56

# 进化策略梯度来源：https://openai.com/index/evolved-policy-gradients/ EPG 的直觉来自于我们都很熟悉的事情：学习一项新技能时经历的交替挫折和喜悦。假设你刚开始学小提琴。即使没有指导，你也会立即感受到应该尝试什么，而且听着你产生的声音，你会有一种是否在取得进展的感觉——这是因为你实际上可以获得非常完善的[内部奖励函数](http://www-anw.cs.umass.edu/legacy/pubs/2009/singh_l_b_09.pdf)，这些函数来自于在其他运动任务的先前经验，以及通过生物进化。相比之下，大多数强化学习（RL）智能体在处理每项新任务时都没有利用先前的知识。相反，它们完全依赖外部奖励信号来指导其初始行为。从这样的白板开始，[当前 RL 智能体花费的时间远长于](https://arxiv.org/abs/1604.00289)人类学习简单技能是不足为奇的。EPG 朝着非白板智能体迈进了一步，这些智能体知道在新任务上取得进展意味着什么，因为它们过去在类似任务上经历过取得进展。最近有[大量工作](https://arxiv.org/abs/1611.02779)[关于](https://arxiv.org/abs/1611.05763)[元学习](https://arxiv.org/abs/1707.03141)[策略](https://arxiv.org/abs/1703.03400)，值得思考为什么学习损失函数而不是直接学习策略？学习循环策略倾向于过度拟合当前任务，而学习策略初始化在探索方面表现力有限。我们的动机是，我们期望损失函数是可能在大幅不同任务之间泛化得非常好的对象。这对于手工设计的损失函数肯定是真的：一个设计良好的 RL 损失函数，例如 [PPO](https://blog.openai.com/openai-baselines-ppo/) 中的那个，可以非常通用地应用，用于从玩 Atari 游戏到控制机器人的各种问题。为了测试 EPG 的泛化能力，我们进行了一个简单的实验。我们进化了 EPG 损失函数，使其能够有效地让"蚂蚁"走向竞技场右半部分的随机位置目标。然后，我们冻结了该损失函数，并给蚂蚁一个新目标，这次在竞技场的*左*半部分。令人惊讶的是，蚂蚁学会了走向左边！以下是他们的学习曲线（图表上的红线）：这个结果令我们感到兴奋，因为它展示了对*训练分布之外*任务的泛化。这种泛化可能很难实现。我们将 EPG 与另一个称为 [RL2](https://arxiv.org/abs/1611.02779) 的元学习算法进行了比较，该算法试图直接学习可以适应新任务的策略。在我们的实验中，RL2 确实成功地让智能体走向屏幕右半部分的目标。但是，当给定测试时间目标在屏幕左半部分时，它定性地失败了，只是继续走向右边。从某种意义上说，它"过度拟合"了接受训练的任务集（即走向右边）。与所有元学习方法一样，我们的方法仍然有许多局限性。目前，我们一次只能训练一个小任务族的 EPG 损失函数有效，例如让蚂蚁左右行走。然而，这个任务族的 EPG 损失函数不太可能在完全不同的任务上有效，比如玩太空入侵者。相比之下，标准 RL 损失函数*确实*具有这种程度的通用性——相同的损失函数可以用来学习大量不同的技能。EPG 通过牺牲通用性来提高性能。距离元学习方法既优于标准 RL 方法*又*具有相同通用性水平还有很长的路要走。

进化策略梯度

相似文章

进化策略作为强化学习的可扩展替代方案

基于梯度外推的策略优化

EvoTrainer：面向自主智能体强化学习的LLM策略与训练框架协同进化

基于重试的策略梯度强化学习中探索的涌现

@svlevine: 我们可以学习一个模型，为机器人强化学习提供塑造的“过程奖励”，它会随着策略的改进而自动演变…

提交意见反馈