rl-for-llms

标签

Cards List
#rl-for-llms

@ickma2311:CMU 高级 NLP:强化学习 我一直好奇 RL 如何作用于大模型,而这门 CMU 课程让我豁然开朗……

X AI KOLs Timeline · 2026-04-21 缓存

CMU 高级 NLP 课程讲清了强化学习如何优化整个输出的奖励(正确性、有用性、安全性),而非预训练/微调阶段的下一个 token 预测。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈