@SergioPaniego: 现在您可以使用 TRL 训练 @liquidai 的 LFM2-VL 模型,包含 GRPO 和 RLOO 方法,并附有示例脚本

X AI KOLs Following 工具

摘要

您现在可以使用 TRL 的 GRPO 和 RLOO 方法来训练 Liquid AI 的 LFM2-VL 模型,并提供了示例脚本。

您现在可以在 TRL 中训练 @liquidai 的 LFM2-VL 模型 包含 GRPO 和 RLOO 方法,并附有示例脚本 https://t.co/H65pK20Q7H
查看原文
查看缓存全文

缓存时间: 2026/06/26 14:10

您现在可以在 TRL 中训练 @liquidai 的 LFM2-VL 模型,包含 GRPO 和 RLOO 方法,并附有示例脚本 https://t.co/H65pK20Q7H

相似文章

Liquid AI 发布 LFM2.5-8B-A1B

Reddit r/LocalLLaMA

Liquid AI 发布了 LFM2.5-8B-A1B,这是一款边缘模型,拥有 128K 上下文窗口、38T 预训练 token 和大规模强化学习,支持工具调用和复杂任务,同时可运行于入门级笔记本电脑。

@SergioPaniego: https://x.com/SergioPaniego/status/2067270222671741360

X AI KOLs Timeline

OpenReward环境现在可以直接通过单个OpenRewardSpec集成到TRL的GRPOTrainer中,从而能够针对一系列RL环境进行零代码粘合训练。该集成处于实验阶段,是让环境和智能体RL成为TRL一等公民的更广泛努力的一部分。

当你没有数据中心GPU时

Reddit r/LocalLLaMA

LiquidAI 发布了 LFM2.5-230M,一个 230M 参数的语言模型,专为在有限硬件上运行而设计,支持 transformers、vLLM 和 SGLang。