近端策略优化

OpenAI Blog 2017/07/20 07:00 论文

摘要

# 近端策略优化来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化（PPO），其性能与最先进的方法相当或更优，同时实现和调优都要简单得多。由于易用性和良好的性能，PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度

我们推出了一类新的强化学习算法——近端策略优化（PPO），其性能与最先进的方法相当或更优，同时实现和调优都要简单得多。由于易用性和良好的性能，PPO 已成为 OpenAI 的默认强化学习算法。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:56

# 近端策略优化来源：https://openai.com/index/openai-baselines-ppo/ OpenAI 我们发布了一类新的强化学习算法——近端策略优化（PPO），其性能与最先进的方法相当或更优，同时实现和调参都要简单得多。由于易用性和良好的性能，PPO 已成为 OpenAI 默认的强化学习算法。策略梯度方法（http://karpathy.github.io/2016/05/31/rl/）是利用深度神经网络进行控制的最新突破的基础，从视频游戏（https://www.nature.com/nature/journal/v518/n7540/full/nature14236.html）、三维运动（https://arxiv.org/abs/1506.02438）到围棋（https://www.nature.com/nature/journal/v529/n7587/full/nature16961.html）。但是使用策略梯度方法获得良好结果具有挑战性，因为它们对步长选择很敏感——步长太小，学习进度会慢得令人绝望；步长太大，信号会被噪声淹没，或者可能看到性能的灾难性下降。这些方法通常样本效率也很低，需要数百万（或数十亿）的时间步来学习简单任务。研究人员试图通过使用 TRPO（https://arxiv.org/abs/1502.05477）和 ACER（https://arxiv.org/abs/1611.01224）等方法来消除这些缺陷，通过限制或以其他方式优化策略更新的大小。这些方法有各自的权衡——ACER 比 PPO 复杂得多，需要添加离策略修正代码和重放缓冲区，但在 Atari 基准上仅比 PPO 稍好一点；TRPO 虽然对连续控制任务有用，但不容易与共享策略和价值函数参数的算法或辅助损失兼容，例如用于解决视觉输入较为重要的 Atari 等领域的问题。在有监督学习中，我们可以轻松实现成本函数，对其进行梯度下降，并且非常确信以相对较少的超参数调整就能获得优秀的结果。强化学习的成功之路不那么显而易见——这些算法有许多难以调试的活动部件，需要大量的调参工作才能获得良好的结果。PPO 在实现的易用性、样本复杂度和调参的便利性之间取得平衡，试图在每一步计算一个更新，以最小化成本函数，同时确保与前一个策略的偏差相对较小。我们之前详细介绍过（https://channel9.msdn.com/Events/Neural-Information-Processing-Systems-Conference/Neural-Information-Processing-Systems-Conference-NIPS-2016/Deep-Reinforcement-Learning-Through-Policy-Optimization）使用自适应 KL（https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence）惩罚来控制每次迭代时策略变化的 PPO 变体。新的变体使用了一个在其他算法中不常见的新型目标函数： L^{CLIP}(\theta) = \hat{E}_{t}[ min(r_t(\theta)\hat{A}_t, clip(r_t(\theta), 1 - \varepsilon, 1 + \varepsilon)\hat{A}_t) ] - θ 是策略参数 - E^t 表示对时间步的经验期望 - r_t 是新旧策略概率的比率 - A^t 是时刻 t 的估计优势 - ε 是超参数，通常为 0.1 或 0.2 这个目标函数实现了一种兼容随机梯度下降的信任域更新方法，通过消除 KL 惩罚和自适应更新的必要性来简化算法。在测试中，该算法在连续控制任务上表现最佳，尽管实现要简单得多，但在 Atari 上的性能几乎与 ACER 相匹配。我们创建了基于 PPO 训练策略的交互式智能体——我们可以使用键盘（https://github.com/openai/roboschool/blob/master/agent_zoo/demo_keyboard_humanoid1.py）在 Roboschool 环境中为机器人设置新的目标位置；虽然输入序列与智能体的训练不同，但它仍能很好地泛化。此次基准库（https://github.com/openai/baselines）的发布包括 PPO 和 TRPO 的可扩展并行实现，两者都使用 MPI 进行数据传输。两者都使用 Python3 和 TensorFlow。我们还将用于训练上述机器人的策略的预训练版本添加到 Roboschool 智能体库（https://github.com/openai/roboschool/tree/master/agent_zoo）中。 **更新**：我们还发布了启用 GPU 的 PPO 实现，称为 PPO2。这在 Atari 上的运行速度比当前 PPO 基准快约 3 倍。此外，我们还发布了具有经验重放的演员-评论家（ACER）的实现，这是一种样本高效的策略梯度算法。ACER 使用重放缓冲区，使其能够对每个采样经验进行多次梯度更新，同时配备了使用 Retrace 算法训练的 Q 函数近似。我们正在寻找人员来帮助构建和优化我们的强化学习算法代码库。如果你对 RL、基准测试、深入实验和开源感兴趣，请申请（https://jobs.lever.co/openai/5c1b2c12-2d18-42f0-836e-96af2cfca5ef），并在申请中提及你阅读了 baselines PPO 帖子。

近端策略优化

相似文章

近未来策略优化

进化策略梯度

DiPO：基于解耦困惑度的策略优化，实现细粒度探索-利用权衡

在线规划，离线学习：通过基于模型的控制实现高效学习和探索

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

提交意见反馈