@ickma2311:CMU 高级 NLP:强化学习 我一直好奇 RL 如何作用于大模型,而这门 CMU 课程让我豁然开朗……

X AI KOLs Timeline 事件

摘要

CMU 高级 NLP 课程讲清了强化学习如何优化整个输出的奖励(正确性、有用性、安全性),而非预训练/微调阶段的下一个 token 预测。

CMU 高级 NLP:强化学习 我一直好奇 RL 如何作用于大模型,这门 CMU 课程让我豁然开朗:预训练/微调关注的是下一个 token;而 RL 关注的是整个输出的奖励:正确性、有用性、安全性。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:22

CMU 高级 NLP:强化学习
我一直很好奇强化学习(RL)是如何与 LLM 结合的,而这门 CMU 课程让我豁然开朗:预训练/微调关注的是下一个 token,而 RL 关注的是整个输出的奖励:正确性、有用性、安全性。

相似文章

超越推理:强化学习释放大型语言模型中的参数化知识

arXiv cs.CL

本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。

当LLM奖励设计失败:稀疏结构化强化学习的诊断驱动细化

arXiv cs.LG

本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题,识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化,与一次性生成相比,取得了显著的成功率提升(例如,DoorKey-8×8从2.3%提升至97.6%)。