@wsl8297: 加州大学开放课程《大语言模型的强化学习》,用“理论 + 实战”的方式,把 AI 训练的关键技术从零到一讲透,帮你系统建立从强化学习到 LLM 训练的完整框架。 课程内容覆盖全面,配套资源齐全:讲座幻灯片、完整视频、实践练习一应俱全,学完就…
摘要
加州大学助理教授Ernest K. Ryu推出《大语言模型的强化学习》开放课程,结合理论与实践全面解析RLHF、PPO/DPO等LLM训练关键技术及配套资源。该课程为开发者与研究者提供了从基础算法到实战部署的系统学习路径。
查看缓存全文
缓存时间: 2026/05/09 03:42
加州大学开放课程《大语言模型的强化学习》,用“理论 + 实战”的方式,把 AI 训练的关键技术从零到一讲透,帮你系统建立从强化学习到 LLM 训练的完整框架。 课程内容覆盖全面,配套资源齐全:讲座幻灯片、完整视频、实践练习一应俱全,学完就能上手做。 课程地址:http://ernestryu.com/courses/RL-LLM.html… 你将学到: - 深度强化学习核心:MDP、策略梯度、A3C、PPO 等关键算法 - 大语言模型基础:NLP、语言建模、RNN 等入门与脉络 - RLHF 全流程拆解:基于人类反馈的训练方法与落地思路 - 可验证奖励强化学习:面向更安全、更可靠的训练范式 - 动手实践:Jupyter 代码示例 + 课后作业,边学边练 课程由 UCLA 数学系助理教授主讲,YouTube 提供全套视频,内容扎实,适合想把“RL + LLM 训练”真正学明白的人。
Reinforcement Learning of Large Language Models
Source: https://ernestryu.com/courses/RL-LLM.html
Lecture slides
- Chapter 0: Prologue.
- Chapter 1: Deep Reinforcement learning.
- Chapter 2: Large Language Models.
- Chapter 3: Reinforcement Learning of Large Language Models.
Lecture videos
- Chapter 0: Prologue.
- Chapter 1.1: MDP foundations, imitation learning, and value iteration.
- Chapter 1.2: Deep policy evaluation.
- Chapter 1.3: Deep policy gradient methods (A3C).
- Chapter 1.4: Deep policy gradient methods (PPO, GRPO).
- Chapter 1.5: AlphaGo, test-time compute, and expert iteration.
- Chapter 2.1: NLP foundations, language modeling, RNNs.
- Chapter 2.2: Transformers I (BERT, GPT-1).
- Chapter 2.3: Transformers II (modern transformers updates and sampling methods).
- Chapter 2.4: In-context learning and instruction fine-tuning.
- Chapter 3.1: Reinforcement learning from human feedback (PPO, DPO).
- Chapter 3.2: Reinforcement learning with verifiable rewards (RLVR).
Course Information
Instructor
Ernest K. Ryu Assistant Professor of Mathematics, UCLA,

Prerequisites
Students are expected to have basic familiarity with deep learning at the level of image classification. No prior experience with reinforcement learning (RL) or large language models (LLMs) is assumed. For the deep RL lectures, students should be familiar with conditional expectations and the tower property (law of total expectation).
相似文章
@techyoutbe:斯坦福大学“LLM架构”1.5小时讲座
斯坦福大学提供一场时长1.5小时的讲座,全面涵盖大语言模型的基础概念与设计原则。
@phosphenq:Andrej Karpathy 这段 2 小时视频,比今年你刷过的所有 AI 教程加起来还管用
OpenAI 联合创始人 Andrej Karpathy 发布了一段 2 小时教学视频,承诺让观众大幅提升大语言模型的实战能力。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。
@AYi_AInotes:想学 AI 的同学,别再只会死磕现成库了。如今从零手写一个大语言模型,比熟练掌握 PyTorch 还要简单。来看看这两位 19 岁的本科生,仅用四个月就从零搭建了完整的机器学习框架和大模型。两位滑铁卢大学的学生,四个月前对机器学习还一无所知,现…
两名19岁的滑铁卢大学本科生在4个月内从零实现了完整的机器学习框架与大语言模型,证明了通过底层手动实现而非单纯依赖现成库来掌握AI技术的可行性。
@wsl8297: 分享一本通俗好读的开源书《大模型基础》。 从大语言模型入门到架构演化,再到 Prompt 工程、参数高效微调、模型编辑、检索增强生成(RAG)等关键技术,一本串起来。 GitHub:https://github.com/ZJU-LLMs/…
浙江大学团队开源了一本通俗易懂的大模型教材《大模型基础》,涵盖从架构演化到RAG等关键技术,并附带Agent-Kernel多智能体框架。