OpenAI Baselines: ACKTR & A2C

OpenAI Blog 2017/08/18 07:00 工具

摘要

OpenAI 发布 ACKTR 和 A2C 算法作为其 Baselines 库的一部分，其中 ACKTR 通过自然梯度下降展示了改进的样本复杂度，同时保持了与一阶方法相当的计算效率。

我们发布了两个新的 OpenAI Baselines 实现：ACKTR 和 A2C。A2C 是异步优势演员评论家算法（A3C）的同步确定性变体，我们发现它能提供相同的性能。ACKTR 是一种比 TRPO 和 A2C 样本效率更高的强化学习算法，每次更新只需要比 A2C 稍多一点的计算量。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:56

# OpenAI Baselines: ACKTR & A2C 来源：https://openai.com/index/openai-baselines-acktr-a2c/ 对于机器学习算法，需要考虑两个重要成本：样本复杂度和计算复杂度。样本复杂度是指智能体与环境交互的时间步长数，计算复杂度是指必须执行的数值运算量。 ACKTR 的样本复杂度优于 A2C 等一阶方法，因为它沿着*自然梯度*方向走一步，而不是梯度方向（或如 ADAM 中的重新缩放版本）。自然梯度给出参数空间中的方向，该方向使用 KL 散度衡量的网络输出分布单位变化时，目标函数能获得最大的（瞬时）改进。通过限制 KL 散度，我们确保新策略的行为与旧策略不会有太大差异，这可能会导致性能崩溃。至于计算复杂度，ACKTR 使用的 KFAC 更新每个更新步骤的开销仅比标准梯度更新高 10-25%。这与 TRPO（即无海森优化）等方法形成对比，后者需要更昂贵的共轭梯度计算。在下面的视频中，你可以看到在不同时间步长下，用 ACKTR 和 A2C 训练的智能体玩 Q-Bert 游戏的比较。用 ACKTR 训练的智能体得分高于用 A2C 训练的智能体。

相似文章

OpenAI Baselines: DQN

OpenAI Blog

# OpenAI Baselines: DQN 来源: [https://openai.com/index/openai-baselines-dqn/](https://openai.com/index/openai-baselines-dqn/) 在将屏幕图像转换为灰度图时，我们对绿色通道的系数标定错误，导致鱼消失了。发现这个bug后，我们调整了色值，算法才能再次识别到鱼。为了在未来调试类似问题，Gym现在包含一个[play⁠\(在新窗口中打开\)](https://gith

使用动作相关分解基线的策略梯度方差缩减

OpenAI Blog

# 使用动作相关分解基线的策略梯度方差缩减来源: [https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/](https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/) OpenAI## 摘要策略梯度方法在深度强化学习中取得了巨大成功，但梯度估计的方差很高。高方差问题特别

OpenAI Baselines: ACKTR & A2C

相似文章

OpenAI Baselines: DQN

使用动作相关分解基线的策略梯度方差缩减

从人类偏好中学习

OpenAI Gym Beta

新一代AI模型与最具影响力的研究论文之一。

提交意见反馈