@vllm_project: 今天我们很高兴推出vime——一个在vLLM生态系统中用于LLM后训练的简单、稳定且高效的RL框架……
摘要
vime是一个用于LLM后训练的新开源RL框架,基于slime的训练设计和vLLM的推理引擎构建,在vLLM生态系统中提供简单、稳定且高效的流水线。
查看缓存全文
缓存时间: 2026/06/10 17:53
今天我们很高兴介绍 vime——一个基于 vLLM 生态的简单、稳定、高效的 LLM 后训练 RL 框架。
基于 slime 久经验证的训练设计以及 vLLM 推理的驱动,vime 为日益壮大的 vLLM 后训练生态带来了又一种强大选择。
我们的目标不是提供一个“一刀切”的框架。我们希望有不同需求的用户能找到适合自身工作流的 vLLM 生态选择——无论是 vime、NeMo RL、OpenRLHF、verl 还是其他。
更多选择。更强互操作性。更多创新。
了解更多:https://vllm.ai/blog/2026-06-09-announcing-vime…
#LLM #RLHF #PostTraining #vLLM
宣布 vime:一个简单、稳定、高效的 LLM RL 框架
来源:https://vllm.ai/blog/2026-06-09-announcing-vime
我们很高兴推出 vime(https://github.com/vllm-project/vime),这是 vLLM 生态中的一个 LLM 后训练框架。vime 基于 slime 的训练栈和数据生成设计,将 Megatron 和 vLLM 连接成一个统一的 RL 管道,使分布式训练和推理能够在统一架构下稳定运行。
slime 已被证明是 RL 后训练的一种优秀工程范式:开放、轻量、高效。vime 将 vLLM 生态引入 slime,将 slime 的训练栈与 vLLM 的推理优势结合起来,形成一个简单、稳定、高效的主管道——提供稳定的训练-推理对齐、灵活的部署模式以及全栈 GPU 支持。
我们的愿景
同时具备实战验证和开源基因的 RL 框架一直很稀缺。slime(https://github.com/THUDM/slime) 在 GLM 等模型上得到验证,作为代表脱颖而出:开放、轻量、简洁、高效。但它原生不支持 vLLM 后端。与此同时,vLLM 是社区中最活跃的推理引擎,融合了前沿技术、多平台生态和快速迭代。
vime 的使命是将 slime 的训练设计与 vLLM 的推理优势结合成一个简单、稳定、高效的管道。开发者不应在单一硬件栈、训练稳定性和推理性能之间做出权衡。
定位
vLLM 社区支持多种 LLM 后训练框架,包括(按字母顺序排列)NeMo RL(https://github.com/NVIDIA-NeMo/RL)、OpenRLHF(https://github.com/openrlhf/openrlhf)、verl(https://github.com/verl-project/verl)等。我们构建 vime 是为了将 slime 久经验证的训练范式无缝引入 vLLM 生态,提供一个可直接投入生产的桥梁,使两个项目的快速发布周期保持一致。
我们希望有不同需求的用户能找到适合其工作流的 vLLM 生态选择。vLLM 社区将继续支持更广泛后训练生态中的 vLLM 集成。
架构概览
vime 采用 slime 的三阶段、解耦训练-推理设计,主要区别在于 rollout 后端替换为 vLLM:
- 训练(Megatron):主训练循环,负责参数更新并将权重同步到 rollout 端。
- Rollout(vLLM + Router):推理采样,生成带有奖励或验证信号的训练样本。
- 数据缓冲区:连接训练端和 rollout 端,管理提示注入和自定义 rollout 逻辑。
vime 通过解耦的数据缓冲区将 Megatron 训练与 vLLM 驱动的 rollout 连接起来。vime 通过解耦的数据缓冲区将 Megatron 训练与 vLLM 驱动的 rollout 连接起来。
关键能力
- 易于使用:参数体系继承 slime 和 Megatron 的惯例,vLLM 端的参数通过
--vllm-前缀传递。默认 rollout 入口点为vime.rollout.vllm_rollout。 - 稳定的训练-推理对齐:在典型的 Dense 和 MoE 场景中,
train_rollout_logprob_abs_diff在长时间运行中保持可控范围。对于 MoE,R3(路由重放)进一步减少训练-推理不匹配。 - 算法和模型覆盖:支持 GRPO、PPO 等 RL 算法,以及 Qwen3 Dense/MoE、GLM-4.5 等模型,提供端到端示例和 CI 验证路径。
- 多硬件支持:在框架层面,训练资源、rollout 资源和集群拓扑被统一抽象,使得随着 vLLM 生态的支持演进,更容易在不同硬件后端上复用同一 RL 管道。
验证与基准测试
对于 Qwen3-30B-A3B,8GPU 同地点部署,dapo-math-17k 和 GRPO,GB200 平均步时间约为 147 秒,而 H200 平均步时间约为 252 秒。在同一框架下,GB200 端到端步速度约为 H200 的 1.72 倍。
Qwen3-30B-A3B vime 在 GB200 和 H200 上的步速度。Qwen3-30B-A3B vime 在 GB200 和 H200 上的步速度。我们还在各硬件上的代表性工作负载中验证了训练-推理一致性及端到端功能。
A100 上的 Qwen3-4B
对于 A100 上的 Qwen3-4B,GRPO,4 训练 + 4 推理非同地点部署,gsm8k,vime 的 train_rollout_logprob_abs_diff 在整个训练过程中稳定在 0.011 左右。而基线随着训练进行持续漂移至 0.77 左右,vime 提供了更稳定的训练-推理对齐。
Qwen3-4B vime 与基线训练行为对比。Qwen3-4B vime 与基线训练行为对比。
使用 R3 的 Qwen3-30B-A3B MoE
对于 A100 上的 Qwen3-30B-A3B MoE,4 训练 GPU,4 推理 GPU,dapo-math-17k,EP=4,启用 vime 的 R3 路由重放将 logprob 差值从大约 0.019 降低到大约 0.013,显著减少了 MoE 训练-推理不匹配。
R3 路由重放减少了 Qwen3-30B-A3B MoE 的训练-推理不匹配。R3 路由重放减少了 Qwen3-30B-A3B MoE 的训练-推理不匹配。
GB200 上的 Qwen3-30B-A3B MoE
对于 GB200 上的 Qwen3-30B-A3B MoE,8GPU 同地点部署,dapo-math-17k,vime 和基线的 raw_reward 曲线紧密对齐。两者均将 train_rollout_logprob_abs_diff 稳定在 0.018 左右,没有出现基线侧的持续漂移。
GB200 上的 Qwen3-30B-A3B MoE 在同地点训练和 rollout 中展现出稳定对齐。GB200 上的 Qwen3-30B-A3B MoE 在同地点训练和 rollout 中展现出稳定对齐。
GB200 上的 GLM-4.5-Air
对于 GB200 上的 GLM-4.5-Air,GRPO,8GPU 同地点部署,dapo-math-17k,raw_reward 在 100 步内呈上升趋势,平均值约为 0.56。train_rollout_logprob_abs_diff 保持在 0.02-0.03 范围内,平均值约为 0.028,表明训练-推理对齐良好。
GB200 上的 GLM-4.5-Air 在奖励提升的同时保持稳定的 logprob 对齐。GB200 上的 GLM-4.5-Air 在奖励提升的同时保持稳定的 logprob 对齐。
路线图
vime 仍在快速发展,路线图聚焦三个领域:
- 更深的 vLLM 集成:持续采用 vLLM 的新功能,如 Router、PD 分离、FP8 和多模型服务。
- 多硬件扩展:沿 vLLM 的硬件插件系统扩展后端,使 vime 能在更多加速器和集群配置上高效运行。
- 训练效率与算法:全异步管道、训练-推理不匹配修正、用于多轮工具调用和多智能体设置的 Agentic RL,以及对 MoE、VLM 等新架构的快速跟进。
快速开始
入门路径与 slime 类似:配置 Megatron 训练资源和 vLLM rollout 资源,准备检查点与数据,然后启动 train.py 或 train_async.py。
- 文档:快速开始(https://github.com/vllm-project/vime/tree/main/docs/en/get_started)
- 示例:
scripts/和examples/目录涵盖了 Qwen3-4B、Qwen3-30B-A3B MoE、GLM-4.5-Air 等场景。
vime 由 vLLM 社区维护,基于 Apache 2.0 开源,建立在 slime、Megatron-LM 和 vLLM 等项目的成果之上。
- 代码与文档:github.com/vllm-project/vime(https://github.com/vllm-project/vime)
- 贡献:欢迎提交 Issue 和 PR。Pre-commit 保持代码风格一致。
- 反馈:在 GitHub 上分享您的体验、性能数据和功能建议。
简洁的架构、稳定的行为、高效的性能:vime 旨在为更多开发者铺平 RL 后训练的主管道。加入我们,帮助将该管道应用于更多场景。
致谢
贡献者:Ao Shen, kaiyuan, princepride, Dakai An, knlnguyen1802, gcanlin, SamitHuang, 和 Meihan-chen。
我们感谢 slime(https://github.com/THUDM/slime)、Megatron-LM(https://github.com/NVIDIA/Megatron-LM)和 vLLM(https://github.com/vllm-project/vllm)项目的维护者所做的开创性工作。同时感谢 Kaichao You、Roger Wang、Hongsheng Liu 和 Xiyuan Wang 对 vime 项目的支持与贡献。
相似文章
vllm-project/vllm v0.19.1
vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。
vLLM 现在有一个新的流式解析器支持 Qwen3+,可在 nightly 版本中使用
vLLM 现在为 Qwen3+ 模型提供了流式解析器,可在 nightly 构建中使用。vLLM 是一个快速且易于使用的 LLM 推理和服务库。
vllm-project/vllm v0.20.1
vLLM v0.20.1 是一个小版本更新,针对这款流行的开源大语言模型推理和服务库,继续保持其高吞吐量和高效内存管理的核心优势。
vllm-project/vllm v0.21.0rc1
vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。
vllm-project/vllm v0.20.0
vLLM v0.20.0 已发布,这是一个用于高吞吐量 LLM 推理和服务的开源库,特色功能包括 PagedAttention 以及对多种硬件架构的支持。