@yuwen_lu_: 看了一半,我靠怎么从来没人告诉我rl这么好玩
摘要
Sanbu 散步发布了现代RL教程Hands-On Modern RL,涵盖从CartPole+PPO入门到LLM后训练(RLHF、DPO、GRPO)和Agentic RL,代码先行,英文版即将更新。
查看缓存全文
缓存时间: 2026/05/31 07:03
看了一半,我靠怎么从来没人告诉我rl这么好玩
Sanbu 散步 (@sanbuphy): 花了段时间写了 RL 教程 Hands-On Modern RL,路线是从 CartPole + PPO 入门,然后到 LLM 后训练(RLHF、DPO、GRPO)、Agentic RL。代码先行,公式用来解释现象。英文版很快更新。 目前是草稿版本,RLHF、Agentic RL 部分本地审校中。 欢迎提 PR 或 Issue & 显卡支持:
相似文章
@sheriyuo: 大家期待已久的 Hands-on Modern RL 教程终于以英文PDF形式提供下载链接:https://github.com/walkinglabs/hands-on-modern-rl/releases/tag/v0.1.5…
一门开源、动手实践的现代强化学习课程,内容涵盖从经典控制到LLM后训练、RLHF、DPO、GRPO以及agentic RL,现提供免费英文PDF下载。
@Phoenixyin13: 强烈Recommend这个RL面试问题合集! @sheriyuo 整理的35道RL benchmark,Algorithm+Infrastructure全覆盖,从PPO、GRPO的clip、KL penalty、advantage计算,到…
推荐一个由@sheriyuo整理的RL面试问题合集,覆盖PPO、GRPO、MoE、vLLM等算法与基础设施,适合准备LLM RL方向面试与研究者。
@Liu_zhongxisn: https://x.com/Liu_zhongxisn/status/2057267000137896110
一篇面向新手进阶的Codex App实战教程,详细讲解如何让AI生成真实文件(Word/PDF/PPT/Excel)、通过小游戏练习完整网页开发流程,以及利用Playwright实现业务自动化,强调从交付真实成果入手而非空谈概念。
@FeitengLi: 动手搭了一个 ReAct agent 系统:围绕 LLM 做 agent 系统 傍晚散步时在想:如何训练 LLM 的 agentic 能力、数据准备、模型训练、agent 轨迹 action 构造 RL 训练,再想 Claude 在过去一…
作者分享了搭建 ReAct agent 系统的经验,并介绍了智谱 AI 发布的 GLM-5 技术报告,该模型在 agentic、推理和编码方面取得了突破。
@neural_avb:这就是经过5-6小时自对弈强化学习训练所能达到的效果——智能体通过激光雷达查看弹丸…
一个帖子分享了在Unity中使用激光雷达和PPO进行自对弈RL训练的视频,随后是关于从零构建AlphaGo的讲座。