@neural_avb: 正在研究推理训练文档。准备编写验证器环境,然后用 Unsloth/TRL 搞起来!如果一切顺利,很快就会出视频。
摘要
用户正在使用 Unsloth 和 TRL 实现带验证器的推理训练,报告了使用小型 SLM 和微型 RM 本地生成类似 GRPO 的样本的进展,并承诺很快发布视频。
查看缓存全文
缓存时间: 2026/06/11 21:45
现在正在看推理训练文档。
是时候写一个验证器环境,然后用 Unsloth/TRL 整它!
如果一切顺利,视频很快就会出🤞🏼 链接
AVB (@neural_avb): 我在本地用我的 SLM 生成了类似 GRPO 的 rollout,并用这个微型的 RM 作为评分标准。下一步我会在自由文本和问答上做 RL 训练。
这玩意儿
- 速度超快
- 远胜 F1/ROUGE/BertScore
- 与外部评判 LM(deepseek)有 80% 的一致性
使用不可验证奖励的 RL!
相似文章
@neural_avb: 用我的 SLM 在本地生成类似 GRPO 的 rollout,并用这个微型 RM 作为评分标准。接下来我将在…
Neural_avb 发布了一个轻量级的 Answer-eq 奖励模型,用于问答任务的强化学习训练,声称与外部评判 LM 的一致性达到 80%,且比 F1/ROUGE/BertScore 更快。
@jiqizhixin:太棒了!关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…
一篇全面回顾推理型LLM强化学习现状的博文,涵盖从REINFORCE、PPO到GRPO乃至更多方法,并与InstructGPT、DeepSeek-R1等关键模型相联系。
@neural_avb: 如果你仔细想想,2026年的LLM训练其实是一个三步循环:- 用一些数据训练 - 内部测试/运行分类评估…
这条推文概述了2026年LLM训练的三步循环:用数据训练、运行评估、为表现不佳的任务添加合成数据。它强调了通过开源模型和廉价API进行合法蒸馏的易得性,并指出仅凭推理轨迹训练就能获得高分。
@neural_avb: 下一个视频是关于训练小型(<1B)模型用于偏好调优。以及如何使用本地模型生成偏好数据集…
宣布即将发布一个关于训练小型模型用于偏好调优的视频,涵盖奖励模型、RLHF、DPO、ORPO,以及Unsloth和TRL的使用。
@neural_avb: https://x.com/neural_avb/status/2063907440509571354
探索递归语言模型(RLM)中一个常见的失败模式,其中自由文本子代理响应会导致问题,并提出一种使用结构化输出提高可靠性的解决方案,通过NarrativeQA中的长上下文问答示例进行说明。