deep-reinforcement-learning

标签

Cards List
#deep-reinforcement-learning

通过深度强化学习的连续时间最优停止

arXiv cs.LG · 2026-06-17 缓存

本文介绍了CARLOS,一种深度强化学习算法,它利用聚合深度神经网络学习美式期权的连续时间最优停止规则,有效缩小了百慕大与美国期权之间的价值差距,并具有较高的计算效率。

0 人收藏 0 人点赞
#deep-reinforcement-learning

一种基于深度强化学习(DRL)的Transformer方法用于解决开放车间调度问题

arXiv cs.AI · 2026-06-15 缓存

介绍了一种基于Transformer的调度策略,该策略通过强化学习训练,用于开放车间调度问题,展示了在小规模实例上训练的模型能够泛化到更大规模的问题,并与经典调度启发式算法竞争。

0 人收藏 0 人点赞
#deep-reinforcement-learning

深度强化学习中的性能变异

arXiv cs.LG · 2026-06-08 缓存

本文指出了深度强化学习中传统不确定性估计的局限性,并提出基于百分位数的统计量和可视化方法,以更好地评估运行间性能变异。案例研究展示了该方法在PPO、SAC、TD-MPC、DQN和Rainbow算法上的应用。

0 人收藏 0 人点赞
#deep-reinforcement-learning

表示学习助力可扩展多任务深度强化学习

arXiv cs.LG · 2026-06-05 缓存

本文认为,表示学习(而非基于模型的规划)是可扩展多任务深度强化学习的关键。文章介绍了MR.Q,一种简单的无模型算法,通过辅助预测目标,在多种连续控制任务上优于之前基于世界模型的方法。

0 人收藏 0 人点赞
#deep-reinforcement-learning

用于带经济器逻辑与CO2约束通风的空调机组的基于PPO直接控制的统一Python框架

arXiv cs.LG · 2026-05-26 缓存

提出了一种统一Python框架,采用基于PPO的深度强化学习来优化带经济器逻辑与CO2约束通风的暖通空调控制,展示了比传统PID控制器更优的能效和温度稳定性。

0 人收藏 0 人点赞
#deep-reinforcement-learning

@tom_doerr: Hugging Face深度强化学习课程含实践练习 https://github.com/huggingface/deep-rl-class…

X AI KOLs Timeline · 2026-05-24 缓存

Hugging Face提供了一门含实践练习的深度强化学习课程,目前处于低维护状态,但仍然是学习理论和实践DRL的有用资源。

0 人收藏 0 人点赞
#deep-reinforcement-learning

2018年秋季OpenAI Fellows:最终项目

OpenAI Blog · 2019-05-17 缓存

OpenAI宣布完成其2018年秋季Fellows计划,并对研究员们的研究贡献表示赞赏。该组织还开源了部分教学课程,包括《Spinning up in Deep RL》,这是一份用于学习强化学习的教育资源。

0 人收藏 0 人点赞
#deep-reinforcement-learning

深度强化学习入门:研讨会回顾

OpenAI Blog · 2019-02-26 缓存

OpenAI 于 2 月 2 日举办了首届「深度强化学习入门」研讨会,约 90 名现场参与者和 300 名直播观众通过讲座、导师指导和实践项目,学习了深度强化学习、机器人技术和 AI 安全方面的知识。

0 人收藏 0 人点赞
#deep-reinforcement-learning

Spinning Up in Deep RL

OpenAI Blog · 2018-11-08 缓存

# Spinning Up in Deep RL 来源:[https://openai.com/index/spinning-up-in-deep-rl/](https://openai.com/index/spinning-up-in-deep-rl/) 在 OpenAI,我们相信深度学习——特别是深度强化学习——将在强大 AI 技术的发展中扮演核心角色。虽然有很多资源可以让人们快速入门深度学习,但深度强化学习的学习曲线更陡峭。我们设计了 Spinning Up 来帮助人们

0 人收藏 0 人点赞
← 返回首页

提交意见反馈