OpenAI Baselines: DQN
摘要
# OpenAI Baselines: DQN 来源: [https://openai.com/index/openai-baselines-dqn/](https://openai.com/index/openai-baselines-dqn/) 在将屏幕图像转换为灰度图时,我们对绿色通道的系数标定错误,导致鱼消失了。发现这个bug后,我们调整了色值,算法才能再次识别到鱼。为了在未来调试类似问题,Gym现在包含一个[play\(在新窗口中打开\)](https://gith
查看缓存全文
缓存时间: 2026/04/20 14:56
相似文章
OpenAI Baselines: ACKTR & A2C
OpenAI 发布 ACKTR 和 A2C 算法作为其 Baselines 库的一部分,其中 ACKTR 通过自然梯度下降展示了改进的样本复杂度,同时保持了与一阶方法相当的计算效率。
必须快速学习:强化学习泛化能力的新基准
OpenAI 推出了一个基于音速小子(Sonic the Hedgehog)的新型强化学习基准,用于测量 RL 智能体的迁移学习和小样本学习性能,同时包括基线算法的评估。
从仿真泛化
# 从仿真泛化 来源: [https://openai.com/index/generalizing-from-simulation/](https://openai.com/index/generalizing-from-simulation/) 仿真机器人的强化学习成果充斥市场,这可能会给人一种印象,即强化学习能轻松解决大多数机器人任务。但常见的强化学习算法只在那些对动作的小幅扰动能带来奖励增量变化的任务中表现良好。一些机器人任务具有简单的奖励函数,比如行走任务,可以根据行进距离来评分
深度强化学习中的安全探索基准测试
OpenAI 提议将约束强化学习标准化作为安全探索的形式化框架,并推出 Safety Gym——一个用于评估高维连续控制任务中安全深度强化学习算法的基准测试套件,这些任务包含安全约束。
使用动作相关分解基线的策略梯度方差缩减
# 使用动作相关分解基线的策略梯度方差缩减 来源: [https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/](https://openai.com/index/variance-reduction-for-policy-gradient-with-action-dependent-factorized-baselines/) OpenAI## 摘要 策略梯度方法在深度强化学习中取得了巨大成功,但梯度估计的方差很高。高方差问题特别