@yuwen_lu_: 看了一半,我靠怎么从来没人告诉我rl这么好玩

X AI KOLs Timeline 工具

摘要

Sanbu 散步发布了现代RL教程Hands-On Modern RL,涵盖从CartPole+PPO入门到LLM后训练(RLHF、DPO、GRPO)和Agentic RL,代码先行,英文版即将更新。

看了一半,我靠怎么从来没人告诉我rl这么好玩
查看原文
查看缓存全文

缓存时间: 2026/05/31 07:03

看了一半,我靠怎么从来没人告诉我rl这么好玩

Sanbu 散步 (@sanbuphy): 花了段时间写了 RL 教程 Hands-On Modern RL,路线是从 CartPole + PPO 入门,然后到 LLM 后训练(RLHF、DPO、GRPO)、Agentic RL。代码先行,公式用来解释现象。英文版很快更新。 目前是草稿版本,RLHF、Agentic RL 部分本地审校中。 欢迎提 PR 或 Issue & 显卡支持:

相似文章

@Liu_zhongxisn: https://x.com/Liu_zhongxisn/status/2057267000137896110

X AI KOLs Timeline

一篇面向新手进阶的Codex App实战教程,详细讲解如何让AI生成真实文件(Word/PDF/PPT/Excel)、通过小游戏练习完整网页开发流程,以及利用Playwright实现业务自动化,强调从交付真实成果入手而非空谈概念。