@SergioPaniego: 现在您可以使用 TRL 训练 @liquidai 的 LFM2-VL 模型，包含 GRPO 和 RLOO 方法，并附有示例脚本

X AI KOLs Following 2026/06/25 16:07 工具

reinforcement-learning training grpo rloo lfm2-vl liquid-ai trl

摘要

您现在可以使用 TRL 的 GRPO 和 RLOO 方法来训练 Liquid AI 的 LFM2-VL 模型，并提供了示例脚本。

您现在可以在 TRL 中训练 @liquidai 的 LFM2-VL 模型包含 GRPO 和 RLOO 方法，并附有示例脚本 https://t.co/H65pK20Q7H

查看原文

查看缓存全文

缓存时间: 2026/06/26 14:10

您现在可以在 TRL 中训练 @liquidai 的 LFM2-VL 模型，包含 GRPO 和 RLOO 方法，并附有示例脚本 https://t.co/H65pK20Q7H

相似文章

Liquid AI 发布 LFM2.5-8B-A1B

Reddit r/LocalLLaMA

Liquid AI 发布了 LFM2.5-8B-A1B，这是一款边缘模型，拥有 128K 上下文窗口、38T 预训练 token 和大规模强化学习，支持工具调用和复杂任务，同时可运行于入门级笔记本电脑。

@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360

X AI KOLs Timeline

OpenReward环境现在可以直接通过单个OpenRewardSpec集成到TRL的GRPOTrainer中，从而能够针对一系列RL环境进行零代码粘合训练。该集成处于实验阶段，是让环境和智能体RL成为TRL一等公民的更广泛努力的一部分。

@didier_lopes: 难以置信，Z. ai 竟然将其强化学习基础设施开源了。GLM-5.2 的整个 OPD 后训练只用了…

X AI KOLs Following

Z. ai 将其强化学习基础设施 slime 框架开源，该框架使 GLM-5.2 的 OPD 后训练在约两天内高效完成。slime 是一个用于强化学习扩展的 LLM 后训练框架，集成了 Megatron 和 SGLang，并已通过 GLM、Qwen、DeepSeek 和 Llama 等前沿模型的实战测试。

当你没有数据中心GPU时

Reddit r/LocalLLaMA

LiquidAI 发布了 LFM2.5-230M，一个 230M 参数的语言模型，专为在有限硬件上运行而设计，支持 transformers、vLLM 和 SGLang。

从零开始开发开源大语言模型：从预训练到RLHF（PPO/GRPO）

Reddit r/LocalLLaMA

一位开发者分享了从零开始训练一个70亿参数开源大语言模型的进展，该模型基于DeepSeek架构并针对低显存进行了优化，目标是推动AI开发的民主化，并最终超越大型专有模型。

相似文章

Liquid AI 发布 LFM2.5-8B-A1B

@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360

@didier_lopes: 难以置信，Z. ai 竟然将其强化学习基础设施开源了。GLM-5.2 的整个 OPD 后训练只用了…

当你没有数据中心GPU时

从零开始开发开源大语言模型：从预训练到RLHF（PPO/GRPO）

提交意见反馈