deep-reinforcement-learning

#deep-reinforcement-learning

通过深度强化学习的连续时间最优停止

arXiv cs.LG ↗ · 2026-06-17 缓存

本文介绍了CARLOS，一种深度强化学习算法，它利用聚合深度神经网络学习美式期权的连续时间最优停止规则，有效缩小了百慕大与美国期权之间的价值差距，并具有较高的计算效率。

0 人收藏 0 人点赞

#deep-reinforcement-learning

一种基于深度强化学习（DRL）的Transformer方法用于解决开放车间调度问题

arXiv cs.AI ↗ · 2026-06-15 缓存

介绍了一种基于Transformer的调度策略，该策略通过强化学习训练，用于开放车间调度问题，展示了在小规模实例上训练的模型能够泛化到更大规模的问题，并与经典调度启发式算法竞争。

0 人收藏 0 人点赞

#deep-reinforcement-learning

深度强化学习中的性能变异

arXiv cs.LG ↗ · 2026-06-08 缓存

本文指出了深度强化学习中传统不确定性估计的局限性，并提出基于百分位数的统计量和可视化方法，以更好地评估运行间性能变异。案例研究展示了该方法在PPO、SAC、TD-MPC、DQN和Rainbow算法上的应用。

0 人收藏 0 人点赞

#deep-reinforcement-learning

表示学习助力可扩展多任务深度强化学习

arXiv cs.LG ↗ · 2026-06-05 缓存

本文认为，表示学习（而非基于模型的规划）是可扩展多任务深度强化学习的关键。文章介绍了MR.Q，一种简单的无模型算法，通过辅助预测目标，在多种连续控制任务上优于之前基于世界模型的方法。

0 人收藏 0 人点赞

#deep-reinforcement-learning

用于带经济器逻辑与CO2约束通风的空调机组的基于PPO直接控制的统一Python框架

arXiv cs.LG ↗ · 2026-05-26 缓存

提出了一种统一Python框架，采用基于PPO的深度强化学习来优化带经济器逻辑与CO2约束通风的暖通空调控制，展示了比传统PID控制器更优的能效和温度稳定性。

0 人收藏 0 人点赞

#deep-reinforcement-learning

@tom_doerr: Hugging Face深度强化学习课程含实践练习 https://github.com/huggingface/deep-rl-class…

X AI KOLs Timeline ↗ · 2026-05-24 缓存

Hugging Face提供了一门含实践练习的深度强化学习课程，目前处于低维护状态，但仍然是学习理论和实践DRL的有用资源。

0 人收藏 0 人点赞

#deep-reinforcement-learning

2018年秋季OpenAI Fellows：最终项目

OpenAI Blog ↗ · 2019-05-17 缓存

OpenAI宣布完成其2018年秋季Fellows计划，并对研究员们的研究贡献表示赞赏。该组织还开源了部分教学课程，包括《Spinning up in Deep RL》，这是一份用于学习强化学习的教育资源。

0 人收藏 0 人点赞

#deep-reinforcement-learning

深度强化学习入门：研讨会回顾

OpenAI Blog ↗ · 2019-02-26 缓存

OpenAI 于 2 月 2 日举办了首届「深度强化学习入门」研讨会，约 90 名现场参与者和 300 名直播观众通过讲座、导师指导和实践项目，学习了深度强化学习、机器人技术和 AI 安全方面的知识。

0 人收藏 0 人点赞

#deep-reinforcement-learning

# Spinning Up in Deep RL 来源：[https://openai.com/index/spinning-up-in-deep-rl/](https://openai.com/index/spinning-up-in-deep-rl/) 在 OpenAI，我们相信深度学习——特别是深度强化学习——将在强大 AI 技术的发展中扮演核心角色。虽然有很多资源可以让人们快速入门深度学习，但深度强化学习的学习曲线更陡峭。我们设计了 Spinning Up 来帮助人们

0 人收藏 0 人点赞

deep-reinforcement-learning

提交意见反馈