@yuwen_lu_: 看了一半，我靠怎么从来没人告诉我rl这么好玩

X AI KOLs Timeline 2026/05/30 23:00 工具

reinforcement-learning tutorial hands-on llm rlhf dpo grpo agentic-rl

摘要

Sanbu 散步发布了现代RL教程Hands-On Modern RL，涵盖从CartPole+PPO入门到LLM后训练（RLHF、DPO、GRPO）和Agentic RL，代码先行，英文版即将更新。

看了一半，我靠怎么从来没人告诉我rl这么好玩

查看原文

查看缓存全文

缓存时间: 2026/05/31 07:03

看了一半，我靠怎么从来没人告诉我rl这么好玩

Sanbu 散步 (@sanbuphy): 花了段时间写了 RL 教程 Hands-On Modern RL，路线是从 CartPole + PPO 入门，然后到 LLM 后训练（RLHF、DPO、GRPO）、Agentic RL。代码先行，公式用来解释现象。英文版很快更新。目前是草稿版本，RLHF、Agentic RL 部分本地审校中。欢迎提 PR 或 Issue & 显卡支持：

相似文章

@sheriyuo: 大家期待已久的 Hands-on Modern RL 教程终于以英文PDF形式提供下载链接：https://github.com/walkinglabs/hands-on-modern-rl/releases/tag/v0.1.5…

X AI KOLs Timeline

一门开源、动手实践的现代强化学习课程，内容涵盖从经典控制到LLM后训练、RLHF、DPO、GRPO以及agentic RL，现提供免费英文PDF下载。

@Phoenixyin13: 强烈Recommend这个RL面试问题合集！ @sheriyuo 整理的35道RL benchmark，Algorithm+Infrastructure全覆盖，从PPO、GRPO的clip、KL penalty、advantage计算，到…

X AI KOLs Timeline

推荐一个由@sheriyuo整理的RL面试问题合集，覆盖PPO、GRPO、MoE、vLLM等算法与基础设施，适合准备LLM RL方向面试与研究者。

@Liu_zhongxisn: https://x.com/Liu_zhongxisn/status/2057267000137896110

X AI KOLs Timeline

一篇面向新手进阶的Codex App实战教程，详细讲解如何让AI生成真实文件（Word/PDF/PPT/Excel）、通过小游戏练习完整网页开发流程，以及利用Playwright实现业务自动化，强调从交付真实成果入手而非空谈概念。

@FeitengLi: 动手搭了一个 ReAct agent 系统：围绕 LLM 做 agent 系统傍晚散步时在想：如何训练 LLM 的 agentic 能力、数据准备、模型训练、agent 轨迹 action 构造 RL 训练，再想 Claude 在过去一…

X AI KOLs Following

作者分享了搭建 ReAct agent 系统的经验，并介绍了智谱 AI 发布的 GLM-5 技术报告，该模型在 agentic、推理和编码方面取得了突破。

@neural_avb：这就是经过5-6小时自对弈强化学习训练所能达到的效果——智能体通过激光雷达查看弹丸…

X AI KOLs Timeline

一个帖子分享了在Unity中使用激光雷达和PPO进行自对弈RL训练的视频，随后是关于从零构建AlphaGo的讲座。

相似文章

@sheriyuo: 大家期待已久的 Hands-on Modern RL 教程终于以英文PDF形式提供下载链接：https://github.com/walkinglabs/hands-on-modern-rl/releases/tag/v0.1.5…

@Phoenixyin13: 强烈Recommend这个RL面试问题合集！ @sheriyuo 整理的35道RL benchmark，Algorithm+Infrastructure全覆盖，从PPO、GRPO的clip、KL penalty、advantage计算，到…

@Liu_zhongxisn: https://x.com/Liu_zhongxisn/status/2057267000137896110

@FeitengLi: 动手搭了一个 ReAct agent 系统：围绕 LLM 做 agent 系统 傍晚散步时在想：如何训练 LLM 的 agentic 能力、数据准备、模型训练、agent 轨迹 action 构造 RL 训练，再想 Claude 在过去一…

@neural_avb：这就是经过5-6小时自对弈强化学习训练所能达到的效果——智能体通过激光雷达查看弹丸…

提交意见反馈

@FeitengLi: 动手搭了一个 ReAct agent 系统：围绕 LLM 做 agent 系统傍晚散步时在想：如何训练 LLM 的 agentic 能力、数据准备、模型训练、agent 轨迹 action 构造 RL 训练，再想 Claude 在过去一…