@_rohit_tiwari_: 强化学习课程结构化学习路径，理解和应用强化学习。https://github.com/upb-lea/reinfor…

X AI KOLs Timeline 2026/05/23 13:34 工具

reinforcement-learning course open-source github lecture-notes tutorial-videos

摘要

一门结构化的强化学习课程，包含讲义、教程任务和视频，作为帕德博恩大学和锡根大学的开源材料分享。

强化学习课程结构化学习路径，理解和应用强化学习。 https://github.com/upb-lea/reinforcement_learning_course_materials… > 强化学习简介 > 马尔可夫决策过程 > 动态规划 > 蒙特卡洛方法 > 时间差分学习 > 多步引导 > 基于表格方法的规划与学习 > 使用监督学习的函数逼近 > 基于函数逼近的同轨策略预测 > 基于函数逼近的价值基控制 > 随机策略梯度方法 > 确定性策略梯度方法 > 更多当代强化学习算法（TRPO、PPO） > 有限状态和动作空间的强化学习 > 连续状态和动作空间的强化学习

查看原文

查看缓存全文

缓存时间: 2026/05/24 04:22

强化学习课程一个系统化的学习路径，用于理解和应用强化学习。 https://github.com/upb-lea/reinforcement_learning_course_materials… > 强化学习导论 > 马尔可夫决策过程 > 动态规划 > 蒙特卡洛方法 > 时序差分学习 > 多步自举 > 基于表格方法的规划与学习 > 基于监督学习的函数近似 > 基于函数近似的同策略预测 > 基于函数近似的基于值控制 > 随机策略梯度方法 > 确定性策略梯度方法 > 其他当代强化学习算法（TRPO, PPO） > 有限状态与动作空间中的强化学习 > 连续状态与动作空间中的强化学习 — # upb-lea/reinforcement_learning_course_materials 来源：https://github.com/upb-lea/reinforcement_learning_course_materials # 强化学习课程构建状态（https://github.com/upb-lea/reinforcement_learning_course_materials/actions/workflows/buildPDFs.yml） [![CC BY 4.0][cc-by-shield]][cc-by] made-with-python (https://www.python.org/) made-with-latex (https://www.latex-project.org/) 本作品采用 [Creative Commons Attribution 4.0 International Public License][cc-by] 许可。 [![CC BY 4.0][cc-by-image]][cc-by] [cc-by]: https://creativecommons.org/licenses/by/4.0/legalcode [cc-by-image]: https://licensebuttons.net/l/by/4.0/88x31.png [cc-by-shield]: https://img.shields.io/badge/License-CC%20BY%204.0-lightgrey.svg 讲义笔记、包含解决方案的练习任务以及在线视频，该强化学习课程最初由帕德博恩大学开设，现已转至锡根大学。整个课程材料的源代码是开放的，我们诚挚邀请各位将其用于自学（学生）或开设自己的课程（讲师）。 ## 讲义幻灯片（点击预览图片） * 强化学习导论 * 讲座视频，第1部分（https://www.youtube.com/watch?v=YqlNOCD0rfA） * 讲座视频，第2部分（https://youtu.be/Yd99sn-64Z8） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec1） * 马尔可夫决策过程 * 讲座视频（https://www.youtube.com/watch?v=ywn81iGQISE） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec2） * 动态规划 * 讲座视频（https://www.youtube.com/watch?v=vjIiYdidFPY） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec3） * 蒙特卡洛方法 * 讲座视频（https://www.youtube.com/watch?v=GBL0ArlONrM） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec4） * 时序差分学习 * 讲座视频（https://www.youtube.com/watch?v=Rnf9Wanxnj8） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec5） * 多步自举 * 讲座视频（https://www.youtube.com/watch?v=YYTSZTyjbQ4） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec6） * 基于表格方法的规划与学习 * 讲座视频（https://www.youtube.com/watch?v=gvJ3__GmHqo） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec7） * 基于监督学习的函数近似 * 讲座视频（https://www.youtube.com/watch?v=tXAxTiuvges） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec9） * 基于函数近似的同策略预测 * 讲座视频（https://www.youtube.com/watch?v=aA3MFRHrrtg） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec10） * 基于函数近似的基于值控制 * 讲座视频（https://www.youtube.com/watch?v=LE9dVVj5700） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec11） * 随机策略梯度方法 * 讲座视频（https://www.youtube.com/watch?v=LzuZUyVr2mY） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec12） * 确定性策略梯度方法 * 讲座视频（https://www.youtube.com/watch?v=i6hOcGIgdoQ） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec13） * 其他当代强化学习算法（TRPO, PPO） * 讲座视频（https://www.youtube.com/watch?v=H8rElrvs9Lo） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec14） * 展望与研究洞察 * 讲座视频（https://www.youtube.com/watch?v=-TEzYSzXhW4） * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec15） * 第一部分总结：有限状态与动作空间中的强化学习 * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec7） * 第二部分总结：连续状态与动作空间中的强化学习 * 讲义幻灯片（https://upb-lea.github.io/reinforcement_learning_course_materials/lecture.pdf#sec16） # 练习内容所有练习基于 Python 3.12 及 requirements.txt 中指定的 site-packages： >>> pip install -r requirements.txt 01. 用于科学计算的 Python 基础 * 教程视频（https://www.youtube.com/watch?v=MJXVQXkOEAA&feature=youtu.be）（由于技术故障，仅有 2022 年版） * 教程模板 * 教程解答 02. 手动求解基本马尔可夫链、奖励与决策问题 * 教程视频（https://www.youtube.com/watch?v=JBliRPC_C5E&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=4） * 教程模板 * 教程解答 03. 啤酒学士与动态规划（最短啤酒问题） * 教程视频（https://www.youtube.com/watch?v=5ylYfeWnb_Y&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=3） * 教程模板 * 教程解答 04. 使用蒙特卡洛学习在赛道上行驶 * 教程视频（https://www.youtube.com/watch?v=RNV7px4AS_E&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=4） * 教程模板 * 教程解答 05. 使用时序差分学习开得更快 * 教程视频（https://www.youtube.com/watch?v=5L3lhod1-CI&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=5） * 教程模板 * 教程解答 06. 使用基于表格的多步方法稳定倒立摆 * 教程视频（https://www.youtube.com/watch?v=5k45M8ey_iw&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=6） * [教程模板](../master/exercises/templates/ex06） * 教程解答 07. 通过结合学习与规划（Dyna 框架）提升倒立摆性能 * 教程视频（https://www.youtube.com/watch?v=r9gLTDBzq5k&list=PL4GzQQuIDBGt82j99oDSWnjfrtwZ-79Yg&index=8） * 教程模板 * 教程解答 08. 通过监督学习预测真实电驱动系统的运行行为 * 教程视频（https://www.youtube.com/watch?v=Aivh5ykeJ2Q） * 教程模板 * 教程解答 09. 使用函数近似评估给定智能体在爬山车问题中的性能 * 教程视频（https://www.youtube.com/watch?v=AY7fvqnjmGU） * 教程模板 * 教程解答 10. 使用半梯度 SARSA 和最小二乘策略迭代逃离爬山车山谷 * 教程视频（https://www.youtube.com/watch?v=IPxare_FmlE） * 教程模板 * 教程解答 11. 使用 REINFORCE 和 Actor-Critic 方法登月 * 教程视频（https://www.youtube.com/watch?v=dL6gK7ITVYU） * 教程模板 * 教程解答 12. 使用 DDPG 和 PPO 向月球冲刺 * 教程视频（https://www.youtube.com/watch?v=YpSC9lTQY4k） * [教程模板](../master/exercises/templates/ex12） * 教程解答 ## 贡献我们非常欢迎任何关于课程材料的反馈和输入，例如： - 报告错字或内容相关问题（请提交 issue） - 提出改进或更正建议（也可以通过 issue） - 添加或修改内容（请提交 pull request）如果您希望以更大规模做出贡献（例如开发新的讲座或练习、维护内容、或协作设计课程），请先提交 issue 以便我们协调。 # 致谢本讲义受以下著作启发： * Richard S. Sutton, Andrew G. Barto, ‘Reinforcement Learning: An Introduction’ 第二版，MIT Press, Cambridge, MA, 2018 (http://www.incompleteideas.net/book/the-book-2nd.html) * David Silver, UCL 强化学习课程，2015 (https://www.davidsilver.uk/teaching/) 教程部分使用了以下预封装环境： * Gymnasium (https://gymnasium.farama.org/)（OpenAI Gym 的维护分支）

相似文章

@tom_doerr: Hugging Face深度强化学习课程含实践练习 https://github.com/huggingface/deep-rl-class…

X AI KOLs Timeline

Hugging Face提供了一门含实践练习的深度强化学习课程，目前处于低维护状态，但仍然是学习理论和实践DRL的有用资源。

@NFTCPS: 加州大学这课，搞AI的都给我冲！理论+实战，把RL和LLM训练从零到一拆成渣。教你MDP、PPO算法、RLHF全流程，还有Jupyter代码实操。UCLA教授主讲，视频+作业都有，学完直接上手。课程地址：https://ernestr…

X AI KOLs Timeline

This article recommends a UCLA-led online course on Reinforcement Learning for Large Language Models, covering theory, algorithms like PPO and RLHF, and practical coding exercises.

@_rohit_tiwari_: 强化学习课程结构化学习路径，理解和应用强化学习。https://github.com/upb-lea/reinfor…

相似文章

@tom_doerr: Hugging Face深度强化学习课程含实践练习 https://github.com/huggingface/deep-rl-class…

@NFTCPS: 加州大学这课，搞AI的都给我冲！理论+实战，把RL和LLM训练从零到一拆成渣。教你MDP、PPO算法、RLHF全流程，还有Jupyter代码实操。UCLA教授主讲，视频+作业都有，学完直接上手。课程地址：https://ernestr…

@ickma2311：CMU 高级 NLP：强化学习我一直好奇 RL 如何作用于大模型，而这门 CMU 课程让我豁然开朗……

@syuggupta: 从零开始学习RL的最佳资源

@tom_doerr：AI、机器学习和大语言模型学习的结构化路线图 https://github.com/bishwaghimire/ai-learning-roadmaps…

提交意见反馈

相似文章

@tom_doerr: Hugging Face深度强化学习课程含实践练习 https://github.com/huggingface/deep-rl-class…

@NFTCPS: 加州大学这课，搞AI的都给我冲！ 理论+实战，把RL和LLM训练从零到一拆成渣。教你MDP、PPO算法、RLHF全流程，还有Jupyter代码实操。UCLA教授主讲，视频+作业都有，学完直接上手。 课程地址：https://ernestr…

@ickma2311：CMU 高级 NLP：强化学习 我一直好奇 RL 如何作用于大模型，而这门 CMU 课程让我豁然开朗……

@syuggupta: 从零开始学习RL的最佳资源

@tom_doerr：AI、机器学习和大语言模型学习的结构化路线图 https://github.com/bishwaghimire/ai-learning-roadmaps…

提交意见反馈

@NFTCPS: 加州大学这课，搞AI的都给我冲！理论+实战，把RL和LLM训练从零到一拆成渣。教你MDP、PPO算法、RLHF全流程，还有Jupyter代码实操。UCLA教授主讲，视频+作业都有，学完直接上手。课程地址：https://ernestr…

@ickma2311：CMU 高级 NLP：强化学习我一直好奇 RL 如何作用于大模型，而这门 CMU 课程让我豁然开朗……