@vllm_project: 今天我们很高兴推出vime——一个在vLLM生态系统中用于LLM后训练的简单、稳定且高效的RL框架……

X AI KOLs Following 工具

摘要

vime是一个用于LLM后训练的新开源RL框架,基于slime的训练设计和vLLM的推理引擎构建,在vLLM生态系统中提供简单、稳定且高效的流水线。

今天我们很高兴推出vime——一个在vLLM生态系统中用于LLM后训练的简单、稳定且高效的RL框架。 基于slime久经考验的训练设计,并由vLLM推理提供动力,vime为不断增长的vLLM后训练生态系统带来了另一个强有力的选择。 我们的目标不是提供一个通用的框架。我们希望有不同需求的用户能为他们的工作流找到合适的vLLM生态系统选择——无论是vime、NeMo RL、OpenRLHF、verl还是其他框架。 更多选择。更强互操作性。更大创新。 了解更多:https://vllm.ai/blog/2026-06-09-announcing-vime… #LLM #RLHF #PostTraining #vLLM
查看原文
查看缓存全文

缓存时间: 2026/06/10 17:53

今天我们很高兴介绍 vime——一个基于 vLLM 生态的简单、稳定、高效的 LLM 后训练 RL 框架。

基于 slime 久经验证的训练设计以及 vLLM 推理的驱动,vime 为日益壮大的 vLLM 后训练生态带来了又一种强大选择。

我们的目标不是提供一个“一刀切”的框架。我们希望有不同需求的用户能找到适合自身工作流的 vLLM 生态选择——无论是 vime、NeMo RL、OpenRLHF、verl 还是其他。

更多选择。更强互操作性。更多创新。

了解更多:https://vllm.ai/blog/2026-06-09-announcing-vime…

#LLM #RLHF #PostTraining #vLLM


宣布 vime:一个简单、稳定、高效的 LLM RL 框架

来源:https://vllm.ai/blog/2026-06-09-announcing-vime

我们很高兴推出 vime(https://github.com/vllm-project/vime),这是 vLLM 生态中的一个 LLM 后训练框架。vime 基于 slime 的训练栈和数据生成设计,将 Megatron 和 vLLM 连接成一个统一的 RL 管道,使分布式训练和推理能够在统一架构下稳定运行。

slime 已被证明是 RL 后训练的一种优秀工程范式:开放、轻量、高效。vime 将 vLLM 生态引入 slime,将 slime 的训练栈与 vLLM 的推理优势结合起来,形成一个简单、稳定、高效的主管道——提供稳定的训练-推理对齐、灵活的部署模式以及全栈 GPU 支持。

我们的愿景

同时具备实战验证和开源基因的 RL 框架一直很稀缺。slime(https://github.com/THUDM/slime) 在 GLM 等模型上得到验证,作为代表脱颖而出:开放、轻量、简洁、高效。但它原生不支持 vLLM 后端。与此同时,vLLM 是社区中最活跃的推理引擎,融合了前沿技术、多平台生态和快速迭代。

vime 的使命是将 slime 的训练设计与 vLLM 的推理优势结合成一个简单、稳定、高效的管道。开发者不应在单一硬件栈、训练稳定性和推理性能之间做出权衡。

定位

vLLM 社区支持多种 LLM 后训练框架,包括(按字母顺序排列)NeMo RL(https://github.com/NVIDIA-NeMo/RL)、OpenRLHF(https://github.com/openrlhf/openrlhf)、verl(https://github.com/verl-project/verl)等。我们构建 vime 是为了将 slime 久经验证的训练范式无缝引入 vLLM 生态,提供一个可直接投入生产的桥梁,使两个项目的快速发布周期保持一致。

我们希望有不同需求的用户能找到适合其工作流的 vLLM 生态选择。vLLM 社区将继续支持更广泛后训练生态中的 vLLM 集成。

架构概览

vime 采用 slime 的三阶段、解耦训练-推理设计,主要区别在于 rollout 后端替换为 vLLM:

  • 训练(Megatron):主训练循环,负责参数更新并将权重同步到 rollout 端。
  • Rollout(vLLM + Router):推理采样,生成带有奖励或验证信号的训练样本。
  • 数据缓冲区:连接训练端和 rollout 端,管理提示注入和自定义 rollout 逻辑。

vime 通过解耦的数据缓冲区将 Megatron 训练与 vLLM 驱动的 rollout 连接起来。vime 通过解耦的数据缓冲区将 Megatron 训练与 vLLM 驱动的 rollout 连接起来。

关键能力

  • 易于使用:参数体系继承 slime 和 Megatron 的惯例,vLLM 端的参数通过 --vllm- 前缀传递。默认 rollout 入口点为 vime.rollout.vllm_rollout
  • 稳定的训练-推理对齐:在典型的 Dense 和 MoE 场景中,train_rollout_logprob_abs_diff 在长时间运行中保持可控范围。对于 MoE,R3(路由重放)进一步减少训练-推理不匹配。
  • 算法和模型覆盖:支持 GRPO、PPO 等 RL 算法,以及 Qwen3 Dense/MoE、GLM-4.5 等模型,提供端到端示例和 CI 验证路径。
  • 多硬件支持:在框架层面,训练资源、rollout 资源和集群拓扑被统一抽象,使得随着 vLLM 生态的支持演进,更容易在不同硬件后端上复用同一 RL 管道。

验证与基准测试

对于 Qwen3-30B-A3B,8GPU 同地点部署,dapo-math-17k 和 GRPO,GB200 平均步时间约为 147 秒,而 H200 平均步时间约为 252 秒。在同一框架下,GB200 端到端步速度约为 H200 的 1.72 倍

Qwen3-30B-A3B vime 在 GB200 和 H200 上的步速度。Qwen3-30B-A3B vime 在 GB200 和 H200 上的步速度。我们还在各硬件上的代表性工作负载中验证了训练-推理一致性及端到端功能。

A100 上的 Qwen3-4B

对于 A100 上的 Qwen3-4B,GRPO,4 训练 + 4 推理非同地点部署,gsm8k,vime 的 train_rollout_logprob_abs_diff 在整个训练过程中稳定在 0.011 左右。而基线随着训练进行持续漂移至 0.77 左右,vime 提供了更稳定的训练-推理对齐。

Qwen3-4B vime 与基线训练行为对比。Qwen3-4B vime 与基线训练行为对比。

使用 R3 的 Qwen3-30B-A3B MoE

对于 A100 上的 Qwen3-30B-A3B MoE,4 训练 GPU,4 推理 GPU,dapo-math-17k,EP=4,启用 vime 的 R3 路由重放将 logprob 差值从大约 0.019 降低到大约 0.013,显著减少了 MoE 训练-推理不匹配。

R3 路由重放减少了 Qwen3-30B-A3B MoE 的训练-推理不匹配。R3 路由重放减少了 Qwen3-30B-A3B MoE 的训练-推理不匹配。

GB200 上的 Qwen3-30B-A3B MoE

对于 GB200 上的 Qwen3-30B-A3B MoE,8GPU 同地点部署,dapo-math-17k,vime 和基线的 raw_reward 曲线紧密对齐。两者均将 train_rollout_logprob_abs_diff 稳定在 0.018 左右,没有出现基线侧的持续漂移。

GB200 上的 Qwen3-30B-A3B MoE 在同地点训练和 rollout 中展现出稳定对齐。GB200 上的 Qwen3-30B-A3B MoE 在同地点训练和 rollout 中展现出稳定对齐。

GB200 上的 GLM-4.5-Air

对于 GB200 上的 GLM-4.5-Air,GRPO,8GPU 同地点部署,dapo-math-17k,raw_reward 在 100 步内呈上升趋势,平均值约为 0.56train_rollout_logprob_abs_diff 保持在 0.02-0.03 范围内,平均值约为 0.028,表明训练-推理对齐良好。

GB200 上的 GLM-4.5-Air 在奖励提升的同时保持稳定的 logprob 对齐。GB200 上的 GLM-4.5-Air 在奖励提升的同时保持稳定的 logprob 对齐。

路线图

vime 仍在快速发展,路线图聚焦三个领域:

  • 更深的 vLLM 集成:持续采用 vLLM 的新功能,如 Router、PD 分离、FP8 和多模型服务。
  • 多硬件扩展:沿 vLLM 的硬件插件系统扩展后端,使 vime 能在更多加速器和集群配置上高效运行。
  • 训练效率与算法:全异步管道、训练-推理不匹配修正、用于多轮工具调用和多智能体设置的 Agentic RL,以及对 MoE、VLM 等新架构的快速跟进。

快速开始

入门路径与 slime 类似:配置 Megatron 训练资源和 vLLM rollout 资源,准备检查点与数据,然后启动 train.pytrain_async.py

  • 文档:快速开始(https://github.com/vllm-project/vime/tree/main/docs/en/get_started)
  • 示例scripts/examples/ 目录涵盖了 Qwen3-4B、Qwen3-30B-A3B MoE、GLM-4.5-Air 等场景。

vime 由 vLLM 社区维护,基于 Apache 2.0 开源,建立在 slime、Megatron-LM 和 vLLM 等项目的成果之上。

  • 代码与文档:github.com/vllm-project/vime(https://github.com/vllm-project/vime)
  • 贡献:欢迎提交 Issue 和 PR。Pre-commit 保持代码风格一致。
  • 反馈:在 GitHub 上分享您的体验、性能数据和功能建议。

简洁的架构、稳定的行为、高效的性能:vime 旨在为更多开发者铺平 RL 后训练的主管道。加入我们,帮助将该管道应用于更多场景。

致谢

贡献者:Ao Shen, kaiyuan, princepride, Dakai An, knlnguyen1802, gcanlin, SamitHuang, 和 Meihan-chen。

我们感谢 slime(https://github.com/THUDM/slime)、Megatron-LM(https://github.com/NVIDIA/Megatron-LM)和 vLLM(https://github.com/vllm-project/vllm)项目的维护者所做的开创性工作。同时感谢 Kaichao You、Roger Wang、Hongsheng Liu 和 Xiyuan Wang 对 vime 项目的支持与贡献。

相似文章

vllm-project/vllm v0.19.1

GitHub Releases Watchlist

vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。

vllm-project/vllm v0.20.1

GitHub Releases Watchlist

vLLM v0.20.1 是一个小版本更新,针对这款流行的开源大语言模型推理和服务库,继续保持其高吞吐量和高效内存管理的核心优势。

vllm-project/vllm v0.21.0rc1

GitHub Releases Watchlist

vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。

vllm-project/vllm v0.20.0

GitHub Releases Watchlist

vLLM v0.20.0 已发布,这是一个用于高吞吐量 LLM 推理和服务的开源库,特色功能包括 PagedAttention 以及对多种硬件架构的支持。