@sheriyuo: 大家期待已久的 Hands-on Modern RL 教程终于以英文PDF形式提供下载链接:https://github.com/walkinglabs/hands-on-modern-rl/releases/tag/v0.1.5…
摘要
一门开源、动手实践的现代强化学习课程,内容涵盖从经典控制到LLM后训练、RLHF、DPO、GRPO以及agentic RL,现提供免费英文PDF下载。
大家期待已久的 Hands-on Modern RL 教程终于以英文PDF形式提供下载链接:https://github.com/walkinglabs/hands-on-modern-rl/releases/tag/v0.1.5…
查看缓存全文
缓存时间: 2026/05/15 13:01
动手实践现代强化学习
一门动手实践的现代强化学习课程
以实践为先导的现代强化学习指南,涵盖从经典控制到LLM后训练、RLVR及多模态智能体。
英文 · 中文
微信群
课程预览 · 概览 · 新闻 · 目录 · 课程大纲 · 实验代码 · 快速开始 · 贡献
相似文章
@SergioPaniego:如果你想在周末读点长文 ↓↓↓ @adithya_s_k 撰写的强化学习环境终极指南 https://hug…
本文由 AdithyaSK 在 Hugging Face Space 上发布,分享了在大型语言模型(LLM)时代构建和扩展强化学习环境的全面指南。
保持 Token 流动:16 个开源 RL 库的经验教训
Hugging Face 发布了对 16 个开源强化学习库的全面分析,研究异步 RL 训练的架构模式,并为 TRL 的异步训练器设计经验教训,以解决生成瓶颈和权重同步挑战。
TRL v1.0:紧跟领域发展的后训练库
Hugging Face 发布 TRL v1.0,这是其训练后库的重大更新,将其从一个研究代码库转变为稳定、生产就绪的工具,支持 PPO 和 DPO 等超过 75 种训练方法。
@stanfordnlp: 很多人大概知道 Transformer 是如何工作的。要真正理解现代神经语言模型——MoE、GPU 分块、算子内核、RLHF、数据——你需要修读 CS336
斯坦福 CS336 课程探讨现代神经语言模型,涵盖 MoE 和 RLHF 等主题,现已在 YouTube 发布,延迟约两周。
收集人类反馈
OpenAI 发布了 RL-Teacher,这是一个开源工具,可以通过人类反馈而不是手工设计的奖励函数来训练 AI 系统,应用于安全 AI 开发和复杂强化学习问题。