标签
本文介绍了CARLOS,一种深度强化学习算法,它利用聚合深度神经网络学习美式期权的连续时间最优停止规则,有效缩小了百慕大与美国期权之间的价值差距,并具有较高的计算效率。
介绍了一种基于Transformer的调度策略,该策略通过强化学习训练,用于开放车间调度问题,展示了在小规模实例上训练的模型能够泛化到更大规模的问题,并与经典调度启发式算法竞争。
本文指出了深度强化学习中传统不确定性估计的局限性,并提出基于百分位数的统计量和可视化方法,以更好地评估运行间性能变异。案例研究展示了该方法在PPO、SAC、TD-MPC、DQN和Rainbow算法上的应用。
本文认为,表示学习(而非基于模型的规划)是可扩展多任务深度强化学习的关键。文章介绍了MR.Q,一种简单的无模型算法,通过辅助预测目标,在多种连续控制任务上优于之前基于世界模型的方法。
提出了一种统一Python框架,采用基于PPO的深度强化学习来优化带经济器逻辑与CO2约束通风的暖通空调控制,展示了比传统PID控制器更优的能效和温度稳定性。
Hugging Face提供了一门含实践练习的深度强化学习课程,目前处于低维护状态,但仍然是学习理论和实践DRL的有用资源。
OpenAI宣布完成其2018年秋季Fellows计划,并对研究员们的研究贡献表示赞赏。该组织还开源了部分教学课程,包括《Spinning up in Deep RL》,这是一份用于学习强化学习的教育资源。
OpenAI 于 2 月 2 日举办了首届「深度强化学习入门」研讨会,约 90 名现场参与者和 300 名直播观众通过讲座、导师指导和实践项目,学习了深度强化学习、机器人技术和 AI 安全方面的知识。
# Spinning Up in Deep RL 来源:[https://openai.com/index/spinning-up-in-deep-rl/](https://openai.com/index/spinning-up-in-deep-rl/) 在 OpenAI,我们相信深度学习——特别是深度强化学习——将在强大 AI 技术的发展中扮演核心角色。虽然有很多资源可以让人们快速入门深度学习,但深度强化学习的学习曲线更陡峭。我们设计了 Spinning Up 来帮助人们