摘要
# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度
我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。
查看缓存全文
缓存时间:
2026/04/20 14:56
# 近端策略优化
来源:https://openai.com/index/openai-baselines-ppo/
OpenAI
我们发布了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调参都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 默认的强化学习算法。
策略梯度方法(http://karpathy.github.io/2016/05/31/rl/)是利用深度神经网络进行控制的最新突破的基础,从视频游戏(https://www.nature.com/nature/journal/v518/n7540/full/nature14236.html)、三维运动(https://arxiv.org/abs/1506.02438)到围棋(https://www.nature.com/nature/journal/v529/n7587/full/nature16961.html)。但是使用策略梯度方法获得良好结果具有挑战性,因为它们对步长选择很敏感——步长太小,学习进度会慢得令人绝望;步长太大,信号会被噪声淹没,或者可能看到性能的灾难性下降。这些方法通常样本效率也很低,需要数百万(或数十亿)的时间步来学习简单任务。
研究人员试图通过使用 TRPO(https://arxiv.org/abs/1502.05477)和 ACER(https://arxiv.org/abs/1611.01224)等方法来消除这些缺陷,通过限制或以其他方式优化策略更新的大小。这些方法有各自的权衡——ACER 比 PPO 复杂得多,需要添加离策略修正代码和重放缓冲区,但在 Atari 基准上仅比 PPO 稍好一点;TRPO 虽然对连续控制任务有用,但不容易与共享策略和价值函数参数的算法或辅助损失兼容,例如用于解决视觉输入较为重要的 Atari 等领域的问题。
在有监督学习中,我们可以轻松实现成本函数,对其进行梯度下降,并且非常确信以相对较少的超参数调整就能获得优秀的结果。强化学习的成功之路不那么显而易见——这些算法有许多难以调试的活动部件,需要大量的调参工作才能获得良好的结果。PPO 在实现的易用性、样本复杂度和调参的便利性之间取得平衡,试图在每一步计算一个更新,以最小化成本函数,同时确保与前一个策略的偏差相对较小。
我们之前详细介绍过(https://channel9.msdn.com/Events/Neural-Information-Processing-Systems-Conference/Neural-Information-Processing-Systems-Conference-NIPS-2016/Deep-Reinforcement-Learning-Through-Policy-Optimization)使用自适应 KL(https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence)惩罚来控制每次迭代时策略变化的 PPO 变体。新的变体使用了一个在其他算法中不常见的新型目标函数:
L^{CLIP}(\theta) = \hat{E}_{t}[ min(r_t(\theta)\hat{A}_t, clip(r_t(\theta), 1 - \varepsilon, 1 + \varepsilon)\hat{A}_t) ]
- θ 是策略参数
- E^t 表示对时间步的经验期望
- r_t 是新旧策略概率的比率
- A^t 是时刻 t 的估计优势
- ε 是超参数,通常为 0.1 或 0.2
这个目标函数实现了一种兼容随机梯度下降的信任域更新方法,通过消除 KL 惩罚和自适应更新的必要性来简化算法。在测试中,该算法在连续控制任务上表现最佳,尽管实现要简单得多,但在 Atari 上的性能几乎与 ACER 相匹配。
我们创建了基于 PPO 训练策略的交互式智能体——我们可以使用键盘(https://github.com/openai/roboschool/blob/master/agent_zoo/demo_keyboard_humanoid1.py)在 Roboschool 环境中为机器人设置新的目标位置;虽然输入序列与智能体的训练不同,但它仍能很好地泛化。
此次基准库(https://github.com/openai/baselines)的发布包括 PPO 和 TRPO 的可扩展并行实现,两者都使用 MPI 进行数据传输。两者都使用 Python3 和 TensorFlow。我们还将用于训练上述机器人的策略的预训练版本添加到 Roboschool 智能体库(https://github.com/openai/roboschool/tree/master/agent_zoo)中。
**更新**:我们还发布了启用 GPU 的 PPO 实现,称为 PPO2。这在 Atari 上的运行速度比当前 PPO 基准快约 3 倍。此外,我们还发布了具有经验重放的演员-评论家(ACER)的实现,这是一种样本高效的策略梯度算法。ACER 使用重放缓冲区,使其能够对每个采样经验进行多次梯度更新,同时配备了使用 Retrace 算法训练的 Q 函数近似。
我们正在寻找人员来帮助构建和优化我们的强化学习算法代码库。如果你对 RL、基准测试、深入实验和开源感兴趣,请申请(https://jobs.lever.co/openai/5c1b2c12-2d18-42f0-836e-96af2cfca5ef),并在申请中提及你阅读了 baselines PPO 帖子。
相似文章
Hugging Face Daily Papers
提出近未来策略优化(NPO),一种混合策略强化学习方法,通过在同一训练运行中利用更晚的 checkpoint 学习,加速收敛,将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。
OpenAI Blog
OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。
Hugging Face Daily Papers
# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡
来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902)
作者:,,,,,,,,,,
## 摘要
一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https:
OpenAI Blog
OpenAI 提出 POLO(在线规划,离线学习)框架,结合基于模型的控制、价值函数学习和协调探索,能够在人形机器人运动和灵巧手部操纵等复杂控制任务中实现高效学习,同时最小化真实世界经验需求。
Papers with Code Trending
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。