@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout,并用这个微型 RM 作为评分标准。接下来我将在…

X AI KOLs Timeline 模型

摘要

Neural_avb 发布了一个轻量级的 Answer-eq 奖励模型,用于问答任务的强化学习训练,声称与外部评判 LM 的一致性达到 80%,且比 F1/ROUGE/BertScore 更快。

用我的 SLM 在本地生成类似 GRPO 的 rollout,并用这个微型 RM 作为评分标准。接下来我将在自由格式文本和问答上进行强化学习训练。 这: - 超级快 - 远优于 F1/ROGUE/BertScore - 与外部评判 LM(deepseek)的一致性达到 80% 使用不可验证奖励进行强化学习!https://t.co/xNzUWSxgrj
查看原文
查看缓存全文

缓存时间: 2026/06/12 04:54

使用我的SLM本地生成类似GRPO的rollout,并用这个微小的RM作为评分标准。接下来,我将在自由文本和问答上进行强化学习训练。

这:

  • 超级快
  • 比 F1/ROGUE/BertScore 好得多
  • 与外部评审模型(DeepSeek)有80%的一致性

强化学习与不可验证的奖励!

耶!这一次我让GPT写了一些丰富的内容……通常我不会费心做这些漂亮的打印/流式处理,但因为最终会放到YouTube视频里……让东西看起来赏心悦目是我的支线任务之一。

让我想想!我得先自己把这套理念理清楚。

相似文章

@neural_avb: https://x.com/neural_avb/status/2063907440509571354

X AI KOLs Timeline

探索递归语言模型(RLM)中一个常见的失败模式,其中自由文本子代理响应会导致问题,并提出一种使用结构化输出提高可靠性的解决方案,通过NarrativeQA中的长上下文问答示例进行说明。

面向强化学习后训练的跨轮次自适应展开优化

arXiv cs.LG

本文提出了CERO,一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差,在提示和轮次之间分配固定的展开预算,以最大化样本效率,实现了理论遗憾界,并在数学推理任务上优于GRPO。