rl-for-llms

标签

#rl-for-llms

@ickma2311：CMU 高级 NLP：强化学习我一直好奇 RL 如何作用于大模型，而这门 CMU 课程让我豁然开朗……

X AI KOLs Timeline ↗ · 2026-04-21 缓存

CMU 高级 NLP 课程讲清了强化学习如何优化整个输出的奖励（正确性、有用性、安全性），而非预训练/微调阶段的下一个 token 预测。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈