@SergioPaniego: 现在您可以使用 TRL 训练 @liquidai 的 LFM2-VL 模型,包含 GRPO 和 RLOO 方法,并附有示例脚本
摘要
您现在可以使用 TRL 的 GRPO 和 RLOO 方法来训练 Liquid AI 的 LFM2-VL 模型,并提供了示例脚本。
查看缓存全文
缓存时间: 2026/06/26 14:10
您现在可以在 TRL 中训练 @liquidai 的 LFM2-VL 模型,包含 GRPO 和 RLOO 方法,并附有示例脚本 https://t.co/H65pK20Q7H
相似文章
Liquid AI 发布 LFM2.5-8B-A1B
Liquid AI 发布了 LFM2.5-8B-A1B,这是一款边缘模型,拥有 128K 上下文窗口、38T 预训练 token 和大规模强化学习,支持工具调用和复杂任务,同时可运行于入门级笔记本电脑。
@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360
OpenReward环境现在可以直接通过单个OpenRewardSpec集成到TRL的GRPOTrainer中,从而能够针对一系列RL环境进行零代码粘合训练。该集成处于实验阶段,是让环境和智能体RL成为TRL一等公民的更广泛努力的一部分。
@didier_lopes: 难以置信,Z. ai 竟然将其强化学习基础设施开源了。GLM-5.2 的整个 OPD 后训练只用了…
Z. ai 将其强化学习基础设施 slime 框架开源,该框架使 GLM-5.2 的 OPD 后训练在约两天内高效完成。slime 是一个用于强化学习扩展的 LLM 后训练框架,集成了 Megatron 和 SGLang,并已通过 GLM、Qwen、DeepSeek 和 Llama 等前沿模型的实战测试。
当你没有数据中心GPU时
LiquidAI 发布了 LFM2.5-230M,一个 230M 参数的语言模型,专为在有限硬件上运行而设计,支持 transformers、vLLM 和 SGLang。
从零开始开发开源大语言模型:从预训练到RLHF(PPO/GRPO)
一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展,该模型基于DeepSeek架构并针对低显存进行了优化,目标是推动AI开发的民主化,并最终超越大型专有模型。