通过参数噪声实现更好的探索

OpenAI Blog 论文

摘要

OpenAI 提出了参数噪声技术,该方法向神经网络策略参数添加自适应噪声,而不是向动作空间添加噪声,使得智能体能够比传统动作噪声方法快得多地学习任务。该方法在 HalfCheetah 上实现了 2 倍的学习速度提升,代表了进化策略与 TRPO、DDPG 等深度强化学习方法之间的平衡点。

我们发现,向强化学习算法的参数添加自适应噪声经常能够提升性能。这种探索方法实现简单,很少会降低性能,因此值得在任何问题上尝试。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:45

# 使用参数噪声进行更好的探索 来源:https://openai.com/index/better-exploration-with-parameter-noise/ 参数噪声让我们教导智能体完成任务的速度远快于其他方法。在 HalfCheetah (https://gym.openai.com/envs/HalfCheetah-v1) Gym 环境(如上图所示)中学习 20 个 episode 后,该策略达到约 3,000 的分数,而仅使用传统动作噪声训练的策略只能达到约 1,500。 参数噪声将自适应噪声添加到神经网络策略的参数中,而不是添加到其动作空间。传统强化学习使用动作空间噪声来改变代理在不同时刻可能采取的各个动作的概率。参数空间噪声直接将随机性注入到代理的参数中,改变它做出决策的方式,使这些决策始终完全依赖于代理当前感知的内容。这种技术介于进化策略 (https://blog.openai.com/evolution-strategies/)(你操纵策略的参数,但不影响策略在每次 rollout 过程中探索环境时采取的动作)和深度强化学习方法(如 TRPO (https://blog.openai.com/openai-baselines-ppo/)、DQN (https://blog.openai.com/openai-baselines-dqn/) 和 DDPG)(你不接触参数,但向策略的动作空间添加噪声)之间的中间方案。 当我们最初进行这项研究时,我们发现应用于 DQN 的 Q 函数的扰动有时可能会非常极端,导致算法重复执行同一个动作。为了解决这个问题,我们添加了一个单独的头部,明确表示策略,就像在 DDPG 中一样(在常规 DQN 中,策略仅由 Q 函数隐式表示),以使设置更接近我们的其他实验。然而,在为此版本准备代码时,我们进行了一个实验,使用参数空间噪声*而不使用*单独的策略头部。我们发现这与我们带有单独策略头部的版本工作效果相当,但实现要简单得多。进一步的实验证实了单独的策略头部确实是不必要的,因为由于我们改变了噪声的重新缩放方式,算法自我们早期实验以来可能已经改进。这导致了一个更简单、更容易实现且训练成本更低的算法,同时仍然取得了非常相似的结果。重要的是要记住,AI 算法,尤其是强化学习中的算法,可能会无声且微妙地失败 (https://blog.openai.com/openai-baselines-dqn/),这可能导致人们围绕被遗漏的错误进行工程设计。

相似文章

基于预测奖励的强化学习

OpenAI Blog

OpenAI 推出随机网络蒸馏 (RND),一种基于预测的方法,通过好奇心驱动强化学习智能体进行探索,无需演示或获取游戏状态信息就能在 Montezuma's Revenge 上达到人类水平的性能。

进化策略作为强化学习的可扩展替代方案

OpenAI Blog

OpenAI 提出进化策略(ES)作为一种可扩展的黑箱优化方法,可替代强化学习用于训练神经网络策略。进化策略通过将策略训练视为随机参数搜索来简化优化问题,该搜索基于奖励反馈反复采样并选择更优的参数配置。

关于通过元强化学习学习探索的一些思考

OpenAI Blog

OpenAI研究人员引入了E-MAML和E-RL²两种元强化学习算法,旨在改进需要大量探索来发现最优策略的任务中的探索性能。该工作展示了这些算法在包括Krazy World和迷宫任务在内的新颖环境中的有效性。

进化策略梯度

OpenAI Blog

OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。