@neural_avb: 正在研究推理训练文档。准备编写验证器环境,然后用 Unsloth/TRL 搞起来!如果一切顺利,很快就会出视频。

X AI KOLs Timeline 工具

摘要

用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练,报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展,并承诺很快发布视频。

正在研究推理训练文档。 是时候编写验证器环境并用 Unsloth/TRL 搞起来了! 如果一切顺利,很快就会出视频 🤞🏼 https://t.co/vlbBpXDxXa
查看原文
查看缓存全文

缓存时间: 2026/06/11 21:45

现在正在看推理训练文档。
是时候写一个验证器环境,然后用 Unsloth/TRL 整它!

如果一切顺利,视频很快就会出🤞🏼 链接

AVB (@neural_avb): 我在本地用我的 SLM 生成了类似 GRPO 的 rollout,并用这个微型的 RM 作为评分标准。下一步我会在自由文本和问答上做 RL 训练。

这玩意儿

  • 速度超快
  • 远胜 F1/ROUGE/BertScore
  • 与外部评判 LM(deepseek)有 80% 的一致性

使用不可验证奖励的 RL!

相似文章

@neural_avb: https://x.com/neural_avb/status/2063907440509571354

X AI KOLs Timeline

探索递归语言模型(RLM)中一个常见的失败模式,其中自由文本子代理响应会导致问题,并提出一种使用结构化输出提高可靠性的解决方案,通过NarrativeQA中的长上下文问答示例进行说明。