@wsl8297: 加州大学开放课程《大语言模型的强化学习》,用“理论 + 实战”的方式,把 AI 训练的关键技术从零到一讲透,帮你系统建立从强化学习到 LLM 训练的完整框架。 课程内容覆盖全面,配套资源齐全:讲座幻灯片、完整视频、实践练习一应俱全,学完就…

X AI KOLs Timeline 新闻

摘要

加州大学助理教授Ernest K. Ryu推出《大语言模型的强化学习》开放课程,结合理论与实践全面解析RLHF、PPO/DPO等LLM训练关键技术及配套资源。该课程为开发者与研究者提供了从基础算法到实战部署的系统学习路径。

加州大学开放课程《大语言模型的强化学习》,用“理论 + 实战”的方式,把 AI 训练的关键技术从零到一讲透,帮你系统建立从强化学习到 LLM 训练的完整框架。 课程内容覆盖全面,配套资源齐全:讲座幻灯片、完整视频、实践练习一应俱全,学完就能上手做。 课程地址:http://ernestryu.com/courses/RL-LLM.html… 你将学到: - 深度强化学习核心:MDP、策略梯度、A3C、PPO 等关键算法 - 大语言模型基础:NLP、语言建模、RNN 等入门与脉络 - RLHF 全流程拆解:基于人类反馈的训练方法与落地思路 - 可验证奖励强化学习:面向更安全、更可靠的训练范式 - 动手实践:Jupyter 代码示例 + 课后作业,边学边练 课程由 UCLA 数学系助理教授主讲,YouTube 提供全套视频,内容扎实,适合想把“RL + LLM 训练”真正学明白的人。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/09 03:42

加州大学开放课程《大语言模型的强化学习》,用“理论 + 实战”的方式,把 AI 训练的关键技术从零到一讲透,帮你系统建立从强化学习到 LLM 训练的完整框架。 课程内容覆盖全面,配套资源齐全:讲座幻灯片、完整视频、实践练习一应俱全,学完就能上手做。 课程地址:http://ernestryu.com/courses/RL-LLM.html… 你将学到: - 深度强化学习核心:MDP、策略梯度、A3C、PPO 等关键算法 - 大语言模型基础:NLP、语言建模、RNN 等入门与脉络 - RLHF 全流程拆解:基于人类反馈的训练方法与落地思路 - 可验证奖励强化学习:面向更安全、更可靠的训练范式 - 动手实践:Jupyter 代码示例 + 课后作业,边学边练 课程由 UCLA 数学系助理教授主讲,YouTube 提供全套视频,内容扎实,适合想把“RL + LLM 训练”真正学明白的人。


Reinforcement Learning of Large Language Models

Source: https://ernestryu.com/courses/RL-LLM.html

Lecture slides


Lecture videos



Course Information

Instructor

Ernest K. Ryu Assistant Professor of Mathematics, UCLA, Photo of Ernest Ryu

Prerequisites

Students are expected to have basic familiarity with deep learning at the level of image classification. No prior experience with reinforcement learning (RL) or large language models (LLMs) is assumed. For the deep RL lectures, students should be familiar with conditional expectations and the tower property (law of total expectation).

相似文章

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。

@AYi_AInotes:想学 AI 的同学,别再只会死磕现成库了。如今从零手写一个大语言模型,比熟练掌握 PyTorch 还要简单。来看看这两位 19 岁的本科生,仅用四个月就从零搭建了完整的机器学习框架和大模型。两位滑铁卢大学的学生,四个月前对机器学习还一无所知,现…

X AI KOLs Timeline

两名19岁的滑铁卢大学本科生在4个月内从零实现了完整的机器学习框架与大语言模型,证明了通过底层手动实现而非单纯依赖现成库来掌握AI技术的可行性。