@neural_avb: 正在研究推理训练文档。准备编写验证器环境，然后用 Unsloth/TRL 搞起来！如果一切顺利，很快就会出视频。

X AI KOLs Timeline 2026/06/11 15:44 工具

reasoning training reinforcement-learning slm verifiers unsloth trl

摘要

用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练，报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展，并承诺很快发布视频。

正在研究推理训练文档。是时候编写验证器环境并用 Unsloth/TRL 搞起来了！如果一切顺利，很快就会出视频 🤞🏼 https://t.co/vlbBpXDxXa

查看原文

查看缓存全文

缓存时间: 2026/06/11 21:45

现在正在看推理训练文档。
是时候写一个验证器环境，然后用 Unsloth/TRL 整它！

如果一切顺利，视频很快就会出🤞🏼 链接

AVB (@neural_avb): 我在本地用我的 SLM 生成了类似 GRPO 的 rollout，并用这个微型的 RM 作为评分标准。下一步我会在自由文本和问答上做 RL 训练。

这玩意儿

速度超快

远胜 F1/ROUGE/BertScore

与外部评判 LM（deepseek）有 80% 的一致性

使用不可验证奖励的 RL！

相似文章

@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout，并用这个微型 RM 作为评分标准。接下来我将在…

X AI KOLs Timeline

Neural_avb 发布了一个轻量级的 Answer-eq 奖励模型，用于问答任务的强化学习训练，声称与外部评判 LM 的一致性达到 80%，且比 F1/ROUGE/BertScore 更快。

@jiqizhixin：太棒了！关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…

X AI KOLs Timeline

一篇全面回顾推理型LLM强化学习现状的博文，涵盖从REINFORCE、PPO到GRPO乃至更多方法，并与InstructGPT、DeepSeek-R1等关键模型相联系。

@neural_avb: 如果你仔细想想，2026年的LLM训练其实是一个三步循环：- 用一些数据训练 - 内部测试/运行分类评估…

X AI KOLs Timeline

这条推文概述了2026年LLM训练的三步循环：用数据训练、运行评估、为表现不佳的任务添加合成数据。它强调了通过开源模型和廉价API进行合法蒸馏的易得性，并指出仅凭推理轨迹训练就能获得高分。

@neural_avb: 下一个视频是关于训练小型（<1B）模型用于偏好调优。以及如何使用本地模型生成偏好数据集…

X AI KOLs Timeline

宣布即将发布一个关于训练小型模型用于偏好调优的视频，涵盖奖励模型、RLHF、DPO、ORPO，以及Unsloth和TRL的使用。

@neural_avb: https://x.com/neural_avb/status/2063907440509571354

X AI KOLs Timeline

探索递归语言模型（RLM）中一个常见的失败模式，其中自由文本子代理响应会导致问题，并提出一种使用结构化输出提高可靠性的解决方案，通过NarrativeQA中的长上下文问答示例进行说明。

提交意见反馈