@vllm_project: 今天我们很高兴推出vime——一个在vLLM生态系统中用于LLM后训练的简单、稳定且高效的RL框架……

X AI KOLs Following 2026/06/09 17:22 工具

llm reinforcement-learning post-training vllm open-source framework

摘要

vime是一个用于LLM后训练的新开源RL框架，基于slime的训练设计和vLLM的推理引擎构建，在vLLM生态系统中提供简单、稳定且高效的流水线。

今天我们很高兴推出vime——一个在vLLM生态系统中用于LLM后训练的简单、稳定且高效的RL框架。基于slime久经考验的训练设计，并由vLLM推理提供动力，vime为不断增长的vLLM后训练生态系统带来了另一个强有力的选择。我们的目标不是提供一个通用的框架。我们希望有不同需求的用户能为他们的工作流找到合适的vLLM生态系统选择——无论是vime、NeMo RL、OpenRLHF、verl还是其他框架。更多选择。更强互操作性。更大创新。了解更多：https://vllm.ai/blog/2026-06-09-announcing-vime… #LLM #RLHF #PostTraining #vLLM

查看原文

查看缓存全文

缓存时间: 2026/06/10 17:53

今天我们很高兴介绍 vime——一个基于 vLLM 生态的简单、稳定、高效的 LLM 后训练 RL 框架。

基于 slime 久经验证的训练设计以及 vLLM 推理的驱动，vime 为日益壮大的 vLLM 后训练生态带来了又一种强大选择。

我们的目标不是提供一个“一刀切”的框架。我们希望有不同需求的用户能找到适合自身工作流的 vLLM 生态选择——无论是 vime、NeMo RL、OpenRLHF、verl 还是其他。

更多选择。更强互操作性。更多创新。

了解更多：https://vllm.ai/blog/2026-06-09-announcing-vime…

#LLM #RLHF #PostTraining #vLLM

宣布 vime：一个简单、稳定、高效的 LLM RL 框架

来源：https://vllm.ai/blog/2026-06-09-announcing-vime

我们很高兴推出 vime（https://github.com/vllm-project/vime），这是 vLLM 生态中的一个 LLM 后训练框架。vime 基于 slime 的训练栈和数据生成设计，将 Megatron 和 vLLM 连接成一个统一的 RL 管道，使分布式训练和推理能够在统一架构下稳定运行。

slime 已被证明是 RL 后训练的一种优秀工程范式：开放、轻量、高效。vime 将 vLLM 生态引入 slime，将 slime 的训练栈与 vLLM 的推理优势结合起来，形成一个简单、稳定、高效的主管道——提供稳定的训练-推理对齐、灵活的部署模式以及全栈 GPU 支持。

我们的愿景

同时具备实战验证和开源基因的 RL 框架一直很稀缺。slime（https://github.com/THUDM/slime）在 GLM 等模型上得到验证，作为代表脱颖而出：开放、轻量、简洁、高效。但它原生不支持 vLLM 后端。与此同时，vLLM 是社区中最活跃的推理引擎，融合了前沿技术、多平台生态和快速迭代。

vime 的使命是将 slime 的训练设计与 vLLM 的推理优势结合成一个简单、稳定、高效的管道。开发者不应在单一硬件栈、训练稳定性和推理性能之间做出权衡。

定位

vLLM 社区支持多种 LLM 后训练框架，包括（按字母顺序排列）NeMo RL（https://github.com/NVIDIA-NeMo/RL）、OpenRLHF（https://github.com/openrlhf/openrlhf）、verl（https://github.com/verl-project/verl）等。我们构建 vime 是为了将 slime 久经验证的训练范式无缝引入 vLLM 生态，提供一个可直接投入生产的桥梁，使两个项目的快速发布周期保持一致。

我们希望有不同需求的用户能找到适合其工作流的 vLLM 生态选择。vLLM 社区将继续支持更广泛后训练生态中的 vLLM 集成。

架构概览

vime 采用 slime 的三阶段、解耦训练-推理设计，主要区别在于 rollout 后端替换为 vLLM：

训练（Megatron）：主训练循环，负责参数更新并将权重同步到 rollout 端。
Rollout（vLLM + Router）：推理采样，生成带有奖励或验证信号的训练样本。
数据缓冲区：连接训练端和 rollout 端，管理提示注入和自定义 rollout 逻辑。

vime 通过解耦的数据缓冲区将 Megatron 训练与 vLLM 驱动的 rollout 连接起来。vime 通过解耦的数据缓冲区将 Megatron 训练与 vLLM 驱动的 rollout 连接起来。

关键能力

易于使用：参数体系继承 slime 和 Megatron 的惯例，vLLM 端的参数通过 --vllm- 前缀传递。默认 rollout 入口点为 vime.rollout.vllm_rollout。
稳定的训练-推理对齐：在典型的 Dense 和 MoE 场景中，train_rollout_logprob_abs_diff 在长时间运行中保持可控范围。对于 MoE，R3（路由重放）进一步减少训练-推理不匹配。
算法和模型覆盖：支持 GRPO、PPO 等 RL 算法，以及 Qwen3 Dense/MoE、GLM-4.5 等模型，提供端到端示例和 CI 验证路径。
多硬件支持：在框架层面，训练资源、rollout 资源和集群拓扑被统一抽象，使得随着 vLLM 生态的支持演进，更容易在不同硬件后端上复用同一 RL 管道。

验证与基准测试

对于 Qwen3-30B-A3B，8GPU 同地点部署，dapo-math-17k 和 GRPO，GB200 平均步时间约为 147 秒，而 H200 平均步时间约为 252 秒。在同一框架下，GB200 端到端步速度约为 H200 的 1.72 倍。

Qwen3-30B-A3B vime 在 GB200 和 H200 上的步速度。Qwen3-30B-A3B vime 在 GB200 和 H200 上的步速度。我们还在各硬件上的代表性工作负载中验证了训练-推理一致性及端到端功能。

A100 上的 Qwen3-4B

对于 A100 上的 Qwen3-4B，GRPO，4 训练 + 4 推理非同地点部署，gsm8k，vime 的 train_rollout_logprob_abs_diff 在整个训练过程中稳定在 0.011 左右。而基线随着训练进行持续漂移至 0.77 左右，vime 提供了更稳定的训练-推理对齐。

Qwen3-4B vime 与基线训练行为对比。Qwen3-4B vime 与基线训练行为对比。

使用 R3 的 Qwen3-30B-A3B MoE

对于 A100 上的 Qwen3-30B-A3B MoE，4 训练 GPU，4 推理 GPU，dapo-math-17k，EP=4，启用 vime 的 R3 路由重放将 logprob 差值从大约 0.019 降低到大约 0.013，显著减少了 MoE 训练-推理不匹配。

R3 路由重放减少了 Qwen3-30B-A3B MoE 的训练-推理不匹配。R3 路由重放减少了 Qwen3-30B-A3B MoE 的训练-推理不匹配。

GB200 上的 Qwen3-30B-A3B MoE

对于 GB200 上的 Qwen3-30B-A3B MoE，8GPU 同地点部署，dapo-math-17k，vime 和基线的 raw_reward 曲线紧密对齐。两者均将 train_rollout_logprob_abs_diff 稳定在 0.018 左右，没有出现基线侧的持续漂移。

GB200 上的 Qwen3-30B-A3B MoE 在同地点训练和 rollout 中展现出稳定对齐。GB200 上的 Qwen3-30B-A3B MoE 在同地点训练和 rollout 中展现出稳定对齐。

GB200 上的 GLM-4.5-Air

对于 GB200 上的 GLM-4.5-Air，GRPO，8GPU 同地点部署，dapo-math-17k，raw_reward 在 100 步内呈上升趋势，平均值约为 0.56。train_rollout_logprob_abs_diff 保持在 0.02-0.03 范围内，平均值约为 0.028，表明训练-推理对齐良好。

GB200 上的 GLM-4.5-Air 在奖励提升的同时保持稳定的 logprob 对齐。GB200 上的 GLM-4.5-Air 在奖励提升的同时保持稳定的 logprob 对齐。

路线图

vime 仍在快速发展，路线图聚焦三个领域：

更深的 vLLM 集成：持续采用 vLLM 的新功能，如 Router、PD 分离、FP8 和多模型服务。
多硬件扩展：沿 vLLM 的硬件插件系统扩展后端，使 vime 能在更多加速器和集群配置上高效运行。
训练效率与算法：全异步管道、训练-推理不匹配修正、用于多轮工具调用和多智能体设置的 Agentic RL，以及对 MoE、VLM 等新架构的快速跟进。

快速开始

入门路径与 slime 类似：配置 Megatron 训练资源和 vLLM rollout 资源，准备检查点与数据，然后启动 train.py 或 train_async.py。

文档：快速开始（https://github.com/vllm-project/vime/tree/main/docs/en/get_started）
示例：scripts/ 和 examples/ 目录涵盖了 Qwen3-4B、Qwen3-30B-A3B MoE、GLM-4.5-Air 等场景。

vime 由 vLLM 社区维护，基于 Apache 2.0 开源，建立在 slime、Megatron-LM 和 vLLM 等项目的成果之上。

代码与文档：github.com/vllm-project/vime（https://github.com/vllm-project/vime）
贡献：欢迎提交 Issue 和 PR。Pre-commit 保持代码风格一致。
反馈：在 GitHub 上分享您的体验、性能数据和功能建议。

简洁的架构、稳定的行为、高效的性能：vime 旨在为更多开发者铺平 RL 后训练的主管道。加入我们，帮助将该管道应用于更多场景。

致谢

贡献者：Ao Shen, kaiyuan, princepride, Dakai An, knlnguyen1802, gcanlin, SamitHuang, 和 Meihan-chen。

我们感谢 slime（https://github.com/THUDM/slime）、Megatron-LM（https://github.com/NVIDIA/Megatron-LM）和 vLLM（https://github.com/vllm-project/vllm）项目的维护者所做的开创性工作。同时感谢 Kaichao You、Roger Wang、Hongsheng Liu 和 Xiyuan Wang 对 vime 项目的支持与贡献。

@vllm_project: 今天我们很高兴推出vime——一个在vLLM生态系统中用于LLM后训练的简单、稳定且高效的RL框架……

宣布 vime：一个简单、稳定、高效的 LLM RL 框架

我们的愿景

定位

架构概览

关键能力

验证与基准测试

A100 上的 Qwen3-4B

使用 R3 的 Qwen3-30B-A3B MoE

GB200 上的 Qwen3-30B-A3B MoE

GB200 上的 GLM-4.5-Air

路线图

快速开始

致谢

相似文章

vllm-project/vllm v0.19.1

vLLM 现在有一个新的流式解析器支持 Qwen3+，可在 nightly 版本中使用

vllm-project/vllm v0.20.1

vllm-project/vllm v0.21.0rc1

vllm-project/vllm v0.20.0

提交意见反馈