通过参数噪声实现更好的探索

OpenAI Blog 2017/07/27 07:00 论文

摘要

OpenAI 提出了参数噪声技术，该方法向神经网络策略参数添加自适应噪声，而不是向动作空间添加噪声，使得智能体能够比传统动作噪声方法快得多地学习任务。该方法在 HalfCheetah 上实现了 2 倍的学习速度提升，代表了进化策略与 TRPO、DDPG 等深度强化学习方法之间的平衡点。

我们发现，向强化学习算法的参数添加自适应噪声经常能够提升性能。这种探索方法实现简单，很少会降低性能，因此值得在任何问题上尝试。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:45

# 使用参数噪声进行更好的探索来源：https://openai.com/index/better-exploration-with-parameter-noise/ 参数噪声让我们教导智能体完成任务的速度远快于其他方法。在 HalfCheetah (https://gym.openai.com/envs/HalfCheetah-v1) Gym 环境（如上图所示）中学习 20 个 episode 后，该策略达到约 3,000 的分数，而仅使用传统动作噪声训练的策略只能达到约 1,500。参数噪声将自适应噪声添加到神经网络策略的参数中，而不是添加到其动作空间。传统强化学习使用动作空间噪声来改变代理在不同时刻可能采取的各个动作的概率。参数空间噪声直接将随机性注入到代理的参数中，改变它做出决策的方式，使这些决策始终完全依赖于代理当前感知的内容。这种技术介于进化策略 (https://blog.openai.com/evolution-strategies/)（你操纵策略的参数，但不影响策略在每次 rollout 过程中探索环境时采取的动作）和深度强化学习方法（如 TRPO (https://blog.openai.com/openai-baselines-ppo/)、DQN (https://blog.openai.com/openai-baselines-dqn/) 和 DDPG）（你不接触参数，但向策略的动作空间添加噪声）之间的中间方案。当我们最初进行这项研究时，我们发现应用于 DQN 的 Q 函数的扰动有时可能会非常极端，导致算法重复执行同一个动作。为了解决这个问题，我们添加了一个单独的头部，明确表示策略，就像在 DDPG 中一样（在常规 DQN 中，策略仅由 Q 函数隐式表示），以使设置更接近我们的其他实验。然而，在为此版本准备代码时，我们进行了一个实验，使用参数空间噪声*而不使用*单独的策略头部。我们发现这与我们带有单独策略头部的版本工作效果相当，但实现要简单得多。进一步的实验证实了单独的策略头部确实是不必要的，因为由于我们改变了噪声的重新缩放方式，算法自我们早期实验以来可能已经改进。这导致了一个更简单、更容易实现且训练成本更低的算法，同时仍然取得了非常相似的结果。重要的是要记住，AI 算法，尤其是强化学习中的算法，可能会无声且微妙地失败 (https://blog.openai.com/openai-baselines-dqn/)，这可能导致人们围绕被遗漏的错误进行工程设计。

通过参数噪声实现更好的探索

相似文章

基于预测奖励的强化学习

进化策略作为强化学习的可扩展替代方案

#探索：深度强化学习中基于计数的探索方法研究

关于通过元强化学习学习探索的一些思考

进化策略梯度

提交意见反馈