Spinning Up in Deep RL

OpenAI Blog 2018/11/08 08:00 工具

摘要

# Spinning Up in Deep RL 来源：[https://openai.com/index/spinning-up-in-deep-rl/](https://openai.com/index/spinning-up-in-deep-rl/) 在 OpenAI，我们相信深度学习——特别是深度强化学习——将在强大 AI 技术的发展中扮演核心角色。虽然有很多资源可以让人们快速入门深度学习，但深度强化学习的学习曲线更陡峭。我们设计了 Spinning Up 来帮助人们

我们发布了 Spinning Up in Deep RL，这是一个教育资源，旨在让任何人都能学会成为深度强化学习的熟练从业者。Spinning Up 包含清晰的 RL 代码示例、教育练习、文档和教程。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:55

# 深度强化学习入门指南来源：https://openai.com/index/spinning-up-in-deep-rl/ 在 OpenAI，我们相信深度学习——尤其是深度强化学习——将在强大 AI 技术的开发中发挥核心作用。虽然有许多资源可以帮助人们快速掌握深度学习，但深度强化学习的入门难度更高。我们设计了 Spinning Up 来帮助人们学习和使用这些技术，并建立相应的直观理解。我们通过与 OpenAI Scholars（在新窗口打开） (https://blog.openai.com/openai-scholars-2019/) 和 Fellows（在新窗口打开） (https://blog.openai.com/openai-fellows-interns-2019/) 项目的合作受到启发而开发了 Spinning Up。我们观察到，如果有正确的指导和资源，即使是机器学习经验很少或完全没有经验的人也能迅速成长为实践者。Spinning Up in Deep RL 就是基于这一需求而开发的，并已整合到 2019 届 Scholars 和 Fellows（在新窗口打开） (https://blog.openai.com/openai-scholars-2019/) 的课程中。我们还发现，掌握强化学习可以帮助人们参与跨学科研究领域，如 AI 安全（在新窗口打开） (https://blog.openai.com/concrete-ai-safety-problems/)，这些领域涉及强化学习和其他技能的融合。由于收到了很多关于如何从零开始学习强化学习的咨询请求，我们决定将多年来非正式给出的建议正式化。 Spinning Up in Deep RL 包含以下核心组件： - 一份简短的强化学习术语、算法类型和基础理论的介绍（在新窗口打开） (https://spinningup.openai.com/en/latest/spinningup/rl_intro.html)。 - 一篇关于如何成长为强化学习研究人员的文章（在新窗口打开） (https://spinningup.openai.com/en/latest/spinningup/spinningup.html)。 - 一份按主题组织的精选重要论文列表（在新窗口打开） (https://spinningup.openai.com/en/latest/spinningup/keypapers.html)。 - 一个文档完善的代码库（在新窗口打开） (https://github.com/openai/spinningup)，包含以下算法的简短独立实现：Vanilla Policy Gradient（VPG）、Trust Region Policy Optimization（TRPO）、Proximal Policy Optimization（PPO）、Deep Deterministic Policy Gradient（DDPG）、Twin Delayed DDPG（TD3）和 Soft Actor-Critic（SAC）。 - 以及一些作为热身的练习（在新窗口打开） (https://spinningup.openai.com/en/latest/spinningup/exercises.html)。我们在为初学者设计 Spinning Up 代码时，使其简洁、友好且易于学习。我们的目标是编写最少化的实现来演示理论如何转化为代码，避免深度强化学习库中常见的抽象层和混淆。我们优先考虑清晰度而非模块性——不同实现之间的代码复用严格限制在日志记录和并行化工具。代码都有详细注释，确保你始终了解发生了什么，并得到对应 readthedocs 页面上的背景材料（和伪代码）的支持。

Spinning Up in Deep RL

相似文章

深度强化学习入门：研讨会回顾

OpenAI 标准化采用 PyTorch

OpenAI Gym Beta

2018年秋季OpenAI Fellows：最终项目

收集人类反馈

提交意见反馈