@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout，并用这个微型 RM 作为评分标准。接下来我将在…

X AI KOLs Timeline 2026/06/11 08:34 模型

reward-model slm rl-training qa open-source grpo

摘要

Neural_avb 发布了一个轻量级的 Answer-eq 奖励模型，用于问答任务的强化学习训练，声称与外部评判 LM 的一致性达到 80%，且比 F1/ROUGE/BertScore 更快。

用我的 SLM 在本地生成类似 GRPO 的 rollout，并用这个微型 RM 作为评分标准。接下来我将在自由格式文本和问答上进行强化学习训练。这： - 超级快 - 远优于 F1/ROGUE/BertScore - 与外部评判 LM（deepseek）的一致性达到 80% 使用不可验证奖励进行强化学习！https://t.co/xNzUWSxgrj

查看原文

查看缓存全文

缓存时间: 2026/06/12 04:54

使用我的SLM本地生成类似GRPO的rollout，并用这个微小的RM作为评分标准。接下来，我将在自由文本和问答上进行强化学习训练。

这：

超级快
比 F1/ROGUE/BertScore 好得多
与外部评审模型（DeepSeek）有80%的一致性

强化学习与不可验证的奖励！

耶！这一次我让GPT写了一些丰富的内容……通常我不会费心做这些漂亮的打印/流式处理，但因为最终会放到YouTube视频里……让东西看起来赏心悦目是我的支线任务之一。

让我想想！我得先自己把这套理念理清楚。

相似文章

@neural_avb: 正在研究推理训练文档。准备编写验证器环境，然后用 Unsloth/TRL 搞起来！如果一切顺利，很快就会出视频。

X AI KOLs Timeline

用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练，报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展，并承诺很快发布视频。

@neural_avb: 今年早些时候发布的这篇后训练文章完全被我忽略了。强烈推荐给我的GRP…

X AI KOLs Timeline

推荐一篇关于GRPO/RLVR的后训练文章，该文章今年早些时候被忽视，适合对基于可验证奖励的强化学习感兴趣的人。

@neural_avb: https://x.com/neural_avb/status/2063907440509571354

X AI KOLs Timeline

探索递归语言模型（RLM）中一个常见的失败模式，其中自由文本子代理响应会导致问题，并提出一种使用结构化输出提高可靠性的解决方案，通过NarrativeQA中的长上下文问答示例进行说明。

面向强化学习后训练的跨轮次自适应展开优化

arXiv cs.LG

本文提出了CERO，一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差，在提示和轮次之间分配固定的展开预算，以最大化样本效率，实现了理论遗憾界，并在数学推理任务上优于GRPO。

@RyanBoldi: 您的 RL 后训练可能正在破坏您的 LLM 的测试时扩展！传统 RL 假装您可以将所有奖励信号压缩为...

X AI KOLs Following

介绍了向量策略优化（VPO），一种新的 RL 方法，通过处理向量值奖励来改进 LLM 的测试时扩展，优于传统的标量奖励方法。

相似文章

@neural_avb: 正在研究推理训练文档。准备编写验证器环境，然后用 Unsloth/TRL 搞起来！如果一切顺利，很快就会出视频。

@neural_avb: 今年早些时候发布的这篇后训练文章完全被我忽略了。强烈推荐给我的GRP…

@neural_avb: https://x.com/neural_avb/status/2063907440509571354

面向强化学习后训练的跨轮次自适应展开优化

@RyanBoldi: 您的 RL 后训练可能正在破坏您的 LLM 的测试时扩展！传统 RL 假装您可以将所有奖励信号压缩为...

提交意见反馈