进化策略梯度

OpenAI Blog 论文

摘要

OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。

我们发布了一个实验性元学习方法,称为进化策略梯度,这是一种通过进化学习代理损失函数的方法,可以实现对新任务的快速训练。使用 EPG 训练的代理可以在测试时成功完成超出其训练范围的基础任务,例如学习导航到房间不同位置的对象,而该对象在训练期间被放置在其他位置。
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:56

# 进化策略梯度 来源:https://openai.com/index/evolved-policy-gradients/ EPG 的直觉来自于我们都很熟悉的事情:学习一项新技能时经历的交替挫折和喜悦。假设你刚开始学小提琴。即使没有指导,你也会立即感受到应该尝试什么,而且听着你产生的声音,你会有一种是否在取得进展的感觉——这是因为你实际上可以获得非常完善的[内部奖励函数](http://www-anw.cs.umass.edu/legacy/pubs/2009/singh_l_b_09.pdf),这些函数来自于在其他运动任务的先前经验,以及通过生物进化。相比之下,大多数强化学习(RL)智能体在处理每项新任务时都没有利用先前的知识。相反,它们完全依赖外部奖励信号来指导其初始行为。从这样的白板开始,[当前 RL 智能体花费的时间远长于](https://arxiv.org/abs/1604.00289)人类学习简单技能是不足为奇的。EPG 朝着非白板智能体迈进了一步,这些智能体知道在新任务上取得进展意味着什么,因为它们过去在类似任务上经历过取得进展。 最近有[大量工作](https://arxiv.org/abs/1611.02779)[关于](https://arxiv.org/abs/1611.05763)[元学习](https://arxiv.org/abs/1707.03141)[策略](https://arxiv.org/abs/1703.03400),值得思考为什么学习损失函数而不是直接学习策略?学习循环策略倾向于过度拟合当前任务,而学习策略初始化在探索方面表现力有限。我们的动机是,我们期望损失函数是可能在大幅不同任务之间泛化得非常好的对象。这对于手工设计的损失函数肯定是真的:一个设计良好的 RL 损失函数,例如 [PPO](https://blog.openai.com/openai-baselines-ppo/) 中的那个,可以非常通用地应用,用于从玩 Atari 游戏到控制机器人的各种问题。 为了测试 EPG 的泛化能力,我们进行了一个简单的实验。我们进化了 EPG 损失函数,使其能够有效地让"蚂蚁"走向竞技场右半部分的随机位置目标。然后,我们冻结了该损失函数,并给蚂蚁一个新目标,这次在竞技场的*左*半部分。令人惊讶的是,蚂蚁学会了走向左边!以下是他们的学习曲线(图表上的红线): 这个结果令我们感到兴奋,因为它展示了对*训练分布之外*任务的泛化。这种泛化可能很难实现。我们将 EPG 与另一个称为 [RL2](https://arxiv.org/abs/1611.02779) 的元学习算法进行了比较,该算法试图直接学习可以适应新任务的策略。在我们的实验中,RL2 确实成功地让智能体走向屏幕右半部分的目标。但是,当给定测试时间目标在屏幕左半部分时,它定性地失败了,只是继续走向右边。从某种意义上说,它"过度拟合"了接受训练的任务集(即走向右边)。 与所有元学习方法一样,我们的方法仍然有许多局限性。目前,我们一次只能训练一个小任务族的 EPG 损失函数有效,例如让蚂蚁左右行走。然而,这个任务族的 EPG 损失函数不太可能在完全不同的任务上有效,比如玩太空入侵者。相比之下,标准 RL 损失函数*确实*具有这种程度的通用性——相同的损失函数可以用来学习大量不同的技能。EPG 通过牺牲通用性来提高性能。距离元学习方法既优于标准 RL 方法*又*具有相同通用性水平还有很长的路要走。

相似文章

进化策略作为强化学习的可扩展替代方案

OpenAI Blog

OpenAI 提出进化策略(ES)作为一种可扩展的黑箱优化方法,可替代强化学习用于训练神经网络策略。进化策略通过将策略训练视为随机参数搜索来简化优化问题,该搜索基于奖励反馈反复采样并选择更优的参数配置。

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。

基于重试的策略梯度强化学习中探索的涌现

arXiv cs.LG

本文提出ReMax,一种新的强化学习目标函数,通过基于多个样本的期望最大回报来评估策略,从而将探索作为涌现属性引入,无需显式的探索奖励。作者推导了策略梯度公式,并提出了RePPO,一种PPO变体,在MinAtar和Craftax基准测试上实现了高效探索。