标签
本文提出了CERO,一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差,在提示和轮次之间分配固定的展开预算,以最大化样本效率,实现了理论遗憾界,并在数学推理任务上优于GRPO。
RUBRIC-ARROW 提出了一种交替式奖励建模框架,通过减少平局并利用成对偏好数据改进了基于评分标准的方法,在非可验证领域为LLM后训练实现了具有竞争力的准确率和收益。
本文提出了EDGE-OPD,一种针对大语言模型的在线策略自蒸馏改进方法,通过引导式采样和证据掩码来内化特权上下文,同时不损害通用能力,在稀有标记身份设定中取得了成功。
Anyscale 推出了一款新的 LLM 后训练 Agent Skill,可自动选择最优的微调方法(SFT、DPO、GRPO 等)并生成可随时启动的配置,帮助避免 GPU 运行浪费。
一门开源、动手实践的现代强化学习课程,内容涵盖从经典控制到LLM后训练、RLHF、DPO、GRPO以及agentic RL,现提供免费英文PDF下载。
本文通过证明由于微调期间神经电路的动态演变,静态机制定位并不充分,从而对大模型后训练中的“先定位后更新”范式提出了挑战。它引入了新的指标来分析电路的稳定性,并提出了在机制定位中需要预测性框架。
TRN-R1-Zero 提出一种后训练框架,让大模型在无需监督微调或思维链数据的情况下,仅凭强化学习即可对富文本网络进行零样本推理。