@ickma2311：CMU 高级 NLP：强化学习我一直好奇 RL 如何作用于大模型，而这门 CMU 课程让我豁然开朗……

X AI KOLs Timeline 2026/04/21 21:07 事件

rlhf nlp-course cmu lecture rl-for-llms

摘要

CMU 高级 NLP 课程讲清了强化学习如何优化整个输出的奖励（正确性、有用性、安全性），而非预训练/微调阶段的下一个 token 预测。

CMU 高级 NLP：强化学习我一直好奇 RL 如何作用于大模型，这门 CMU 课程让我豁然开朗：预训练/微调关注的是下一个 token；而 RL 关注的是整个输出的奖励：正确性、有用性、安全性。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:22

CMU 高级 NLP：强化学习
我一直很好奇强化学习（RL）是如何与 LLM 结合的，而这门 CMU 课程让我豁然开朗：预训练/微调关注的是下一个 token，而 RL 关注的是整个输出的奖励：正确性、有用性、安全性。

相似文章

arXiv cs.CL

本文探讨了强化学习能否在推理任务之外，进一步提升大型语言模型（LLM）对参数化知识的直接回忆能力。研究表明，通过二元奖励进行强化学习，可以通过重新分配概率质量来激活潜在知识，而非习得新事实，从而在事实性问答基准测试中取得显著提升。

X AI KOLs Timeline

一篇全面回顾推理型LLM强化学习现状的博文，涵盖从REINFORCE、PPO到GRPO乃至更多方法，并与InstructGPT、DeepSeek-R1等关键模型相联系。

X AI KOLs Following

MIT 引入了 Pedagogical RL，该方法通过惩罚令人意外的步骤来训练一个教师模型，使其为学生模型生成易于学习的轨迹，从而提高强化学习的训练效率。

arXiv cs.LG

本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题，识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化，与一次性生成相比，取得了显著的成功率提升（例如，DoorKey-8×8从2.3%提升至97.6%）。

arXiv cs.CL

本文提出了一个强化学习框架，通过建模Token重要性来选择性地对不重要的Token进行惩罚，同时保留关键推理步骤，采用重要性感知奖励和动态长度奖励来减少冗余，在不牺牲准确性的前提下提高效率。