OpenAI Baselines: ACKTR & A2C

OpenAI Blog 工具

摘要

OpenAI 发布 ACKTR 和 A2C 算法作为其 Baselines 库的一部分,其中 ACKTR 通过自然梯度下降展示了改进的样本复杂度,同时保持了与一阶方法相当的计算效率。

我们发布了两个新的 OpenAI Baselines 实现:ACKTR 和 A2C。A2C 是异步优势演员评论家算法(A3C)的同步确定性变体,我们发现它能提供相同的性能。ACKTR 是一种比 TRPO 和 A2C 样本效率更高的强化学习算法,每次更新只需要比 A2C 稍多一点的计算量。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:56

# OpenAI Baselines: ACKTR & A2C 来源:https://openai.com/index/openai-baselines-acktr-a2c/ 对于机器学习算法,需要考虑两个重要成本:样本复杂度和计算复杂度。样本复杂度是指智能体与环境交互的时间步长数,计算复杂度是指必须执行的数值运算量。 ACKTR 的样本复杂度优于 A2C 等一阶方法,因为它沿着*自然梯度*方向走一步,而不是梯度方向(或如 ADAM 中的重新缩放版本)。自然梯度给出参数空间中的方向,该方向使用 KL 散度衡量的网络输出分布单位变化时,目标函数能获得最大的(瞬时)改进。通过限制 KL 散度,我们确保新策略的行为与旧策略不会有太大差异,这可能会导致性能崩溃。 至于计算复杂度,ACKTR 使用的 KFAC 更新每个更新步骤的开销仅比标准梯度更新高 10-25%。这与 TRPO(即无海森优化)等方法形成对比,后者需要更昂贵的共轭梯度计算。 在下面的视频中,你可以看到在不同时间步长下,用 ACKTR 和 A2C 训练的智能体玩 Q-Bert 游戏的比较。用 ACKTR 训练的智能体得分高于用 A2C 训练的智能体。

相似文章

OpenAI Baselines: DQN

OpenAI Blog

# OpenAI Baselines: DQN 来源: [https://openai.com/index/openai-baselines-dqn/](https://openai.com/index/openai-baselines-dqn/) 在将屏幕图像转换为灰度图时,我们对绿色通道的系数标定错误,导致鱼消失了。发现这个bug后,我们调整了色值,算法才能再次识别到鱼。为了在未来调试类似问题,Gym现在包含一个[play⁠\(在新窗口中打开\)](https://gith

使用动作相关分解基线的策略梯度方差缩减

OpenAI Blog

# 使用动作相关分解基线的策略梯度方差缩减 来源: [https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/](https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/) OpenAI## 摘要 策略梯度方法在深度强化学习中取得了巨大成功,但梯度估计的方差很高。高方差问题特别

从人类偏好中学习

OpenAI Blog

OpenAI 提出了一种使用人类偏好反馈训练 AI 智能体的方法,智能体通过人类对行为轨迹的比较来学习奖励函数,并使用强化学习来优化推断的目标。该方法展示了很强的样本效率,需要少于 1000 比特的人类反馈就能训练智能体完成后翻。

OpenAI Gym Beta

OpenAI Blog

OpenAI 发布了 OpenAI Gym 公开测试版,这是一个用于开发和比较强化学习算法的工具包,包含不断增长的环境套件和可复现研究的平台。该工具包旨在标准化强化学习基准,并为研究社区提供多样化、易于使用的环境。