深度强化学习入门：研讨会回顾

OpenAI Blog 2019/02/26 08:00 事件

deep-reinforcement-learning workshop education ai-safety robotics community

摘要

OpenAI 于 2 月 2 日举办了首届「深度强化学习入门」研讨会，约 90 名现场参与者和 300 名直播观众通过讲座、导师指导和实践项目，学习了深度强化学习、机器人技术和 AI 安全方面的知识。

2 月 2 日，我们在 OpenAI 的新教育计划中举办了首届「深度强化学习入门」研讨会。

查看缓存全文

缓存时间: 2026/04/20 14:55

# 深度强化学习入门：研讨会总结来源：https://openai.com/index/spinning-up-in-deep-rl-workshop-review/ OpenAI 2 月 2 日，作为 OpenAI 新教育计划的一部分，我们举办了首届 Spinning Up 研讨会。我们在办公室接待了约 90 名现场参与者，通过直播吸引了近 300 人参加。参与者来自学术界、软件工程、数据科学、机器学习工程、医学和教育等各个领域。本研讨会基于我们的[《深度强化学习入门》](https://openai.com/index/spinning-up-in-deep-rl/)资源包，深入探讨了强化学习算法设计、机器人技术和构建安全 AI 系统。 ![演讲者在现场观众面前对着麦克风讲话](image) OpenAI 教育的目标之一是帮助人们掌握参与 AI 研究和开发所需的技能——尤其是深度强化学习，这是 OpenAI 的核心研究领域。从与[学者](https://blog.openai.com/openai-scholars-2018-final-projects/)和[研究员](https://blog.openai.com/openai-summer-fellows-2018/)合作的经验中，我们发现技能培养的关键要素是： 1. 包含核心内容和研究前沿回顾的灵活课程 2. 来自专家的指导和讨论 3. 让学生从事能够帮助他们成长的项目 OpenAI 教育面临的挑战是如何大规模提供这些要素。虽然大规模共享课程相对容易，但如何扩大导师指导和项目指导并不明显。我们的理论是研讨会可能帮助我们实现这一目标。首届 Spinning Up 研讨会给了我们几个积极信号，表明这是一个有用的方向，我们很高兴能分享我们的学习收获。 ![大量观众聚精会神地向前看](image) 我们在办公室接待了约 90 人，通过直播参与了近 300 人。客人来自学术研究、软件工程、数据科学、机器学习工程、医学和教育等各个领域。参与者的机器学习经验水平差异很大，从"几乎没有"到"自己开发了 Dota 机器人"。来自世界各地超过 500 人申请参加本次研讨会。虽然由于场地限制，我们很遗憾无法邀请所有人参加这次活动，但我们希望继续通过未来的活动与社区互动。研讨会首先进行了三小时的演讲。首先，[Joshua Achiam](https://twitter.com/jachiam0)阐述了强化学习的概念基础，并概述了不同类型的强化学习算法。如果你想学习这些内容，可以查看[《深度强化学习入门》](https://blog.openai.com/spinning-up-in-deep-rl/)。 Matthias Plappert 介绍了 OpenAI [最近的](https://blog.openai.com/learning-dexterity/)[工作](https://arxiv.org/abs/1808.00177)——在模拟环境中训练灵巧的机器人手来操作真实世界中的物体。领域随机化、循环神经网络和大规模分布式训练是弥合此任务中"模拟到真实"差距的必要因素。 OpenAI 安全团队负责人 Dario Amodei 介绍了 AI 安全问题的概况，以及该领域的[最近](https://blog.openai.com/amplifying-ai-training/)[工作](https://blog.openai.com/debate/)。他描述了核心安全问题：正确指定智能体行为是困难的！很容易无意中给智能体激励以执行不同于你想要的行为，当智能体非常强大时，这可能很危险。Dario 还描述了 OpenAI 和 DeepMind 合作者所做的[工作](https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/)来解决这个问题，即从人类偏好而不是设计中学习奖励函数。 ![一组演讲者站在投影前，面向现场观众](image) 分组讨论会成为下午的亮点。虽然上午的演讲涵盖了强化学习的概念基础，但分组讨论会旨在帮助参与者提高实施和研究能力。 ![一群人坐在一张桌子周围，专注于他们的笔记本电脑](image) 在第一个环节中，Karl Cobbe 介绍了 [TensorFlow](https://www.tensorflow.org/)，这是深度学习研究中的关键库。在第二个环节"一起编写 DQN"中，Daniel Ziegler 逐步引导参与者实现深度强化学习算法。在第三个环节"高级强化学习问答"中，Joshua Achiam 描述了强化学习的最新研究前沿，并回答了有关强化学习研究的观众提问。 ![一群人坐在大桌子周围，在笔记本电脑上工作，并在拥挤的房间里交谈](image) 这是我们第一次尝试研讨会形式，我们普遍对结果感到满意。特别是，与这样一群有能力和热情的参与者直接合作令人欣慰。这次经验以及小组的反馈给了我们很好的感觉，了解了未来研讨会应该保留和改进的内容。 **成功之处**：我们问参与者亮点是什么，这些回应很有代表性： > "在一个安全、友好的环境中学习了大量内容，每个人在学习水平上基本处于同一阶段。" > "我认为能够获得一对一帮助并花时间进行某种'配对编程'，与真正了解情况的人一起工作非常有帮助。志愿者的热情也很高，我感到被鼓励去寻求帮助。" 这样的回应让我们感受到研讨会形式在提供"专家指导和讨论"方面的优势。 ![两个人在笔记本电脑上合作](image) **可以改进的方面**：我们问参与者认为我们可以如何做才能增强他们的体验，收到的回应包括： > "我希望能有一个演讲部分介绍我们可以根据经验水平追求的潜在项目。" > "将研讨会延长为两天。" 许多参与者认为他们要么不确定在黑客马拉松期间应该从事什么工作，要么没有足够的时间在他们的编程项目上取得显著进展。我们认为这种反馈很好地表明了 1 天研讨会的形式不足以"让学生从事有助于他们在强化学习领域成长的项目"。将来，我们会考虑举办更长的活动，以实现这一目标。这些反馈也表明我们应该做更多工作来创建参与者可以直接投入的"即用型"强化学习项目。 ![一个人侧面坐着，戴着耳机，专注地看着笔记本电脑上 3D 棋盘环境的屏幕](image) **其他方面**：除了研讨会的技术内容外，创建一个支持性和包容性的环境是我们的首要任务，参与者告诉我们这对他们的体验很重要。一条反馈意见写道： > "这是我在硅谷参加的第一个非女性专属社交活动，房间里约有 50% 的女性。我一开始惊讶到以为自己进错了房间。由于性别平衡，社交明显变得更容易，所以谢谢你们。" ![两个人站着交谈，手里拿着食物和饮料](image) *感谢 Maddie Hall 和 Loren Kwan 共同组织了此次活动，感谢 Ian Atha 进行直播和录制讲座，以及帮助参与者解决 Python 和 TensorFlow 问题，感谢 [Blake Tucker](https://www.blaketucker.com/) 进行拍摄和摄影！*

深度强化学习入门：研讨会回顾

相似文章

Spinning Up in Deep RL

OpenAI Fellows 2018夏季：最终项目

2018年秋季OpenAI Fellows：最终项目

OpenAI Robotics Symposium 2019

OpenAI 黑客马拉松报告

提交意见反馈