@_rohit_tiwari_: 强化学习课程 结构化学习路径,理解和应用强化学习。https://github.com/upb-lea/reinfor…
摘要
一门结构化的强化学习课程,包含讲义、教程任务和视频,作为帕德博恩大学和锡根大学的开源材料分享。
查看缓存全文
缓存时间: 2026/05/24 04:22
强化学习课程 一个系统化的学习路径,用于理解和应用强化学习。 https://github.com/upb-lea/reinforcement_learning_course_materials… > 强化学习导论 > 马尔可夫决策过程 > 动态规划 > 蒙特卡洛方法 > 时序差分学习 > 多步自举 > 基于表格方法的规划与学习 > 基于监督学习的函数近似 > 基于函数近似的同策略预测 > 基于函数近似的基于值控制 > 随机策略梯度方法 > 确定性策略梯度方法 > 其他当代强化学习算法(TRPO, PPO) > 有限状态与动作空间中的强化学习 > 连续状态与动作空间中的强化学习 — # upb-lea/reinforcement_learning_course_materials 来源:https://github.com/upb-lea/reinforcement_learning_course_materials # 强化学习课程 构建状态(https://github.com/upb-lea/reinforcement_learning_course_materials/actions/workflows/buildPDFs.yml) [![CC BY 4.0][cc-by-shield]][cc-by] made-with-python (https://www.python.org/) made-with-latex (https://www.latex-project.org/) 本作品采用 [Creative Commons Attribution 4.0 International Public License][cc-by] 许可。 [![CC BY 4.0][cc-by-image]][cc-by] [cc-by]: https://creativecommons.org/licenses/by/4.0/legalcode [cc-by-image]: https://licensebuttons.net/l/by/4.0/88x31.png [cc-by-shield]: https://img.shields.io/badge/License-CC%20BY%204.0-lightgrey.svg 讲义笔记、包含解决方案的练习任务以及在线视频,该强化学习课程最初由帕德博恩大学开设,现已转至锡根大学。整个课程材料的源代码是开放的,我们诚挚邀请各位将其用于自学(学生)或开设自己的课程(讲师)。 ## 讲义幻灯片(点击预览图片) * 强化学习导论 * 讲座视频,第1部分(https://www.youtube.com/watch?v=YqlNOCD0rfA) * 讲座视频,第2部分(https://youtu.be/Yd99sn-64Z8) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec1) * 马尔可夫决策过程 * 讲座视频(https://www.youtube.com/watch?v=ywn81iGQISE) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec2) * 动态规划 * 讲座视频(https://www.youtube.com/watch?v=vjIiYdidFPY) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec3) * 蒙特卡洛方法 * 讲座视频(https://www.youtube.com/watch?v=GBL0ArlONrM) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec4) * 时序差分学习 * 讲座视频(https://www.youtube.com/watch?v=Rnf9Wanxnj8) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec5) * 多步自举 * 讲座视频(https://www.youtube.com/watch?v=YYTSZTyjbQ4) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec6) * 基于表格方法的规划与学习 * 讲座视频(https://www.youtube.com/watch?v=gvJ3__GmHqo) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec7) * 基于监督学习的函数近似 * 讲座视频(https://www.youtube.com/watch?v=tXAxTiuvges) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec9) * 基于函数近似的同策略预测 * 讲座视频(https://www.youtube.com/watch?v=aA3MFRHrrtg) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec10) * 基于函数近似的基于值控制 * 讲座视频(https://www.youtube.com/watch?v=LE9dVVj5700) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec11) * 随机策略梯度方法 * 讲座视频(https://www.youtube.com/watch?v=LzuZUyVr2mY) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec12) * 确定性策略梯度方法 * 讲座视频(https://www.youtube.com/watch?v=i6hOcGIgdoQ) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec13) * 其他当代强化学习算法(TRPO, PPO) * 讲座视频(https://www.youtube.com/watch?v=H8rElrvs9Lo) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec14) * 展望与研究洞察 * 讲座视频(https://www.youtube.com/watch?v=-TEzYSzXhW4) * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec15) * 第一部分总结:有限状态与动作空间中的强化学习 * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec7) * 第二部分总结:连续状态与动作空间中的强化学习 * 讲义幻灯片(https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec16) # 练习内容 所有练习基于 Python 3.12 及 requirements.txt 中指定的 site-packages: >>> pip install -r requirements.txt 01. 用于科学计算的 Python 基础 * 教程视频(https://www.youtube.com/watch?v=MJXVQXkOEAA&feature=youtu.be)(由于技术故障,仅有 2022 年版) * 教程模板 * 教程解答 02. 手动求解基本马尔可夫链、奖励与决策问题 * 教程视频(https://www.youtube.com/watch?v=JBliRPC_C5E&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=4) * 教程模板 * 教程解答 03. 啤酒学士与动态规划(最短啤酒问题) * 教程视频(https://www.youtube.com/watch?v=5ylYfeWnb_Y&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=3) * 教程模板 * 教程解答 04. 使用蒙特卡洛学习在赛道上行驶 * 教程视频(https://www.youtube.com/watch?v=RNV7px4AS_E&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=4) * 教程模板 * 教程解答 05. 使用时序差分学习开得更快 * 教程视频(https://www.youtube.com/watch?v=5L3lhod1-CI&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=5) * 教程模板 * 教程解答 06. 使用基于表格的多步方法稳定倒立摆 * 教程视频(https://www.youtube.com/watch?v=5k45M8ey_iw&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=6) * [教程模板](../master/exercises/templates/ex06) * 教程解答 07. 通过结合学习与规划(Dyna 框架)提升倒立摆性能 * 教程视频(https://www.youtube.com/watch?v=r9gLTDBzq5k&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=8) * 教程模板 * 教程解答 08. 通过监督学习预测真实电驱动系统的运行行为 * 教程视频(https://www.youtube.com/watch?v=Aivh5ykeJ2Q) * 教程模板 * 教程解答 09. 使用函数近似评估给定智能体在爬山车问题中的性能 * 教程视频(https://www.youtube.com/watch?v=AY7fvqnjmGU) * 教程模板 * 教程解答 10. 使用半梯度 SARSA 和最小二乘策略迭代逃离爬山车山谷 * 教程视频(https://www.youtube.com/watch?v=IPxare_FmlE) * 教程模板 * 教程解答 11. 使用 REINFORCE 和 Actor-Critic 方法登月 * 教程视频(https://www.youtube.com/watch?v=dL6gK7ITVYU) * 教程模板 * 教程解答 12. 使用 DDPG 和 PPO 向月球冲刺 * 教程视频(https://www.youtube.com/watch?v=YpSC9lTQY4k) * [教程模板](../master/exercises/templates/ex12) * 教程解答 ## 贡献 我们非常欢迎任何关于课程材料的反馈和输入,例如: - 报告错字或内容相关问题(请提交 issue) - 提出改进或更正建议(也可以通过 issue) - 添加或修改内容(请提交 pull request) 如果您希望以更大规模做出贡献(例如开发新的讲座或练习、维护内容、或协作设计课程),请先提交 issue 以便我们协调。 # 致谢 本讲义受以下著作启发: * Richard S. Sutton, Andrew G. Barto, ‘Reinforcement Learning: An Introduction’ 第二版,MIT Press, Cambridge, MA, 2018 (http://www.incompleteideas.net/book/the-book-2nd.html) * David Silver, UCL 强化学习课程,2015 (https://www.davidsilver.uk/teaching/) 教程部分使用了以下预封装环境: * Gymnasium (https://gymnasium.farama.org/)(OpenAI Gym 的维护分支)
相似文章
@tom_doerr: Hugging Face深度强化学习课程含实践练习 https://github.com/huggingface/deep-rl-class…
Hugging Face提供了一门含实践练习的深度强化学习课程,目前处于低维护状态,但仍然是学习理论和实践DRL的有用资源。
@NFTCPS: 加州大学这课,搞AI的都给我冲! 理论+实战,把RL和LLM训练从零到一拆成渣。教你MDP、PPO算法、RLHF全流程,还有Jupyter代码实操。UCLA教授主讲,视频+作业都有,学完直接上手。 课程地址:https://ernestr…
This article recommends a UCLA-led online course on Reinforcement Learning for Large Language Models, covering theory, algorithms like PPO and RLHF, and practical coding exercises.
@ickma2311:CMU 高级 NLP:强化学习 我一直好奇 RL 如何作用于大模型,而这门 CMU 课程让我豁然开朗……
CMU 高级 NLP 课程讲清了强化学习如何优化整个输出的奖励(正确性、有用性、安全性),而非预训练/微调阶段的下一个 token 预测。
@syuggupta: 从零开始学习RL的最佳资源
一条推荐'Hands-on Modern RL'网站作为从零开始学习强化学习的最佳资源的推文,并附有关于BipedalWalker章节的链接。
@tom_doerr:AI、机器学习和大语言模型学习的结构化路线图 https://github.com/bishwaghimire/ai-learning-roadmaps…
一个全面且开源的 GitHub 仓库,提供结构化的学习路线图与精选资源,助力学习者从入门到精通掌握 AI、机器学习、深度学习及大语言模型。该资源面向学生与专业人士设计,内容涵盖基础概念、编程框架、职业发展路径以及前沿 AI 议题。