@ickma2311:CMU 高级 NLP:强化学习 我一直好奇 RL 如何作用于大模型,而这门 CMU 课程让我豁然开朗……
摘要
CMU 高级 NLP 课程讲清了强化学习如何优化整个输出的奖励(正确性、有用性、安全性),而非预训练/微调阶段的下一个 token 预测。
CMU 高级 NLP:强化学习 我一直好奇 RL 如何作用于大模型,这门 CMU 课程让我豁然开朗:预训练/微调关注的是下一个 token;而 RL 关注的是整个输出的奖励:正确性、有用性、安全性。
查看缓存全文
缓存时间: 2026/04/22 08:22
CMU 高级 NLP:强化学习
我一直很好奇强化学习(RL)是如何与 LLM 结合的,而这门 CMU 课程让我豁然开朗:预训练/微调关注的是下一个 token,而 RL 关注的是整个输出的奖励:正确性、有用性、安全性。
相似文章
超越推理:强化学习释放大型语言模型中的参数化知识
本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。
@jiqizhixin:太棒了!关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…
一篇全面回顾推理型LLM强化学习现状的博文,涵盖从REINFORCE、PPO到GRPO乃至更多方法,并与InstructGPT、DeepSeek-R1等关键模型相联系。
@blc_16: MIT 刚刚发布了一种名为 Pedagogical RL 的新强化学习方法。主要教训 -> 正确的推理轨迹仍然可能是糟糕的训练数据...
MIT 引入了 Pedagogical RL,该方法通过惩罚令人意外的步骤来训练一个教师模型,使其为学生模型生成易于学习的轨迹,从而提高强化学习的训练效率。
当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化
本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。
并非所有Token都同等重要:通过强化学习中的Token重要性实现高效LLM推理
本文提出了一个强化学习框架,通过建模Token重要性来选择性地对不重要的Token进行惩罚,同时保留关键推理步骤,采用重要性感知奖励和动态长度奖励来减少冗余,在不牺牲准确性的前提下提高效率。