使用动作相关分解基线的策略梯度方差缩减

OpenAI Blog 2018/03/20 07:00 论文

摘要

# 使用动作相关分解基线的策略梯度方差缩减来源: [https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/](https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/) OpenAI## 摘要策略梯度方法在深度强化学习中取得了巨大成功，但梯度估计的方差很高。高方差问题特别

暂无内容

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:56

# 带有动作相关因子化基线的策略梯度的方差缩减来源: https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/ OpenAI ## 摘要策略梯度方法在深度强化学习中取得了巨大成功，但梯度估计的方差很高。在长时间视界或高维动作空间的问题中，高方差问题尤为严重。为了缓解这个问题，我们推导了一个无偏的动作相关基线，用于方差缩减，它充分利用了随机策略本身的结构形式，不对马尔可夫决策过程（MDP）做任何额外假设。我们通过理论分析和数值结果演示并量化了动作相关基线的优势，包括对最优状态相关基线次优性的分析。结果是一个计算效率高的策略梯度算法，可扩展到高维控制问题，正如一个综合的2000维目标匹配任务所展示的那样。我们的实验结果表明，动作相关基线可以在标准强化学习基准测试以及高维手部操纵和综合任务上实现更快的学习。最后，我们证明了在基线中包含额外信息以改进方差缩减的一般想法可以扩展到部分可观测和多智能体任务。

相似文章

进化策略梯度

OpenAI Blog

OpenAI 推出进化策略梯度（EPG），这是一种元学习方法，通过进化而非直接学习策略来学习损失函数，使强化学习代理能够通过利用类似人类技能迁移的先验经验，更好地跨任务泛化。

通过参数噪声实现更好的探索

OpenAI Blog

OpenAI 提出了参数噪声技术，该方法向神经网络策略参数添加自适应噪声，而不是向动作空间添加噪声，使得智能体能够比传统动作噪声方法快得多地学习任务。该方法在 HalfCheetah 上实现了 2 倍的学习速度提升，代表了进化策略与 TRPO、DDPG 等深度强化学习方法之间的平衡点。

OpenAI Baselines: ACKTR & A2C

OpenAI Blog

OpenAI 发布 ACKTR 和 A2C 算法作为其 Baselines 库的一部分，其中 ACKTR 通过自然梯度下降展示了改进的样本复杂度，同时保持了与一阶方法相当的计算效率。

策略梯度与软Q学习之间的等价性

OpenAI Blog

# 策略梯度与软Q学习之间的等价性来源：[https://openai.com/index/equivalence-between-policy-gradients-and-soft-q-learning/](https://openai.com/index/equivalence-between-policy-gradients-and-soft-q-learning/) OpenAI ## 摘要策略梯度方法和Q学习方法是无模型强化学习中两种主要方法。Q学习方法在有效时样本效率很高，但目前还不太清楚它们为什么能够工作

OpenAI Baselines: DQN

OpenAI Blog

# OpenAI Baselines: DQN 来源: [https://openai.com/index/openai-baselines-dqn/](https://openai.com/index/openai-baselines-dqn/) 在将屏幕图像转换为灰度图时，我们对绿色通道的系数标定错误，导致鱼消失了。发现这个bug后，我们调整了色值，算法才能再次识别到鱼。为了在未来调试类似问题，Gym现在包含一个[play⁠\(在新窗口中打开\)](https://gith

相似文章

进化策略梯度

通过参数噪声实现更好的探索

OpenAI Baselines: ACKTR & A2C

策略梯度与软Q学习之间的等价性

OpenAI Baselines: DQN

提交意见反馈