@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout,并用这个微型 RM 作为评分标准。接下来我将在…
摘要
Neural_avb 发布了一个轻量级的 Answer-eq 奖励模型,用于问答任务的强化学习训练,声称与外部评判 LM 的一致性达到 80%,且比 F1/ROUGE/BertScore 更快。
查看缓存全文
缓存时间: 2026/06/12 04:54
使用我的SLM本地生成类似GRPO的rollout,并用这个微小的RM作为评分标准。接下来,我将在自由文本和问答上进行强化学习训练。
这:
- 超级快
- 比 F1/ROGUE/BertScore 好得多
- 与外部评审模型(DeepSeek)有80%的一致性
强化学习与不可验证的奖励!
耶!这一次我让GPT写了一些丰富的内容……通常我不会费心做这些漂亮的打印/流式处理,但因为最终会放到YouTube视频里……让东西看起来赏心悦目是我的支线任务之一。
让我想想!我得先自己把这套理念理清楚。
相似文章
@neural_avb: 正在研究推理训练文档。准备编写验证器环境,然后用 Unsloth/TRL 搞起来!如果一切顺利,很快就会出视频。
用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练,报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展,并承诺很快发布视频。
@neural_avb: 今年早些时候发布的这篇后训练文章完全被我忽略了。强烈推荐给我的GRP…
推荐一篇关于GRPO/RLVR的后训练文章,该文章今年早些时候被忽视,适合对基于可验证奖励的强化学习感兴趣的人。
@neural_avb: https://x.com/neural_avb/status/2063907440509571354
探索递归语言模型(RLM)中一个常见的失败模式,其中自由文本子代理响应会导致问题,并提出一种使用结构化输出提高可靠性的解决方案,通过NarrativeQA中的长上下文问答示例进行说明。
面向强化学习后训练的跨轮次自适应展开优化
本文提出了CERO,一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差,在提示和轮次之间分配固定的展开预算,以最大化样本效率,实现了理论遗憾界,并在数学推理任务上优于GRPO。
@RyanBoldi: 您的 RL 后训练可能正在破坏您的 LLM 的测试时扩展!传统 RL 假装您可以将所有奖励信号压缩为...
介绍了向量策略优化(VPO),一种新的 RL 方法,通过处理向量值奖励来改进 LLM 的测试时扩展,优于传统的标量奖励方法。