vllm-project/vllm v0.20.0

GitHub Releases Watchlist 2026/04/27 21:20 工具

vllm llm-inference open-source machine-learning gpu-optimization software-release

摘要

vLLM v0.20.0 已发布，这是一个用于高吞吐量 LLM 推理和服务的开源库，特色功能包括 PagedAttention 以及对多种硬件架构的支持。

vLLM v0.20.0 亮点本次发布包含来自 320 位贡献者（其中 123 位为新贡献者）的 752 个提交！ DeepSeek V4：初步支持 DeepSeek V4 (#40860)，修复了 DSV4/3.2 中的 DSML 令牌泄漏问题 (#40806)，修复了 DSA + MTP IMA 问题 (#40772)，并对共享专家添加了 silu 钳位限制 (#40950)。 CUDA 13.0 默认版本：PyPI 上的默认 CUDA wheel 和 vllm/vllm-openai:v0.20.0 镜像已切换至 CUDA 13.0；清理了架构列表和构建参数 (#39878)，并将 CUDA 提升至 13.0.2 以匹配 PyTorch 2.11.0 (#40669)。一般原则是，我们的 CUDA 版本策略遵循 PyTorch。我们强烈建议使用 uv 安装 vLLM，如果您使用的是 CUDA 12.9，请使用 --torch-backend=cu129。 PyTorch 2.11 升级 (#34644)：vLLM 在 CUDA 上基于 torch 2.11 运行，XPU 现在也基于 torch 2.11 (#37947) —— XPU 不再锁定在 2.10。这是一个破坏性变更，影响环境依赖。 Python 3.14：已添加到受支持的 Python 版本列表中 (#34770)。 Transformers v5：vLLM 现在可以在 HuggingFace transformers>=5 上运行 (#30566)，具有视觉编码器 torch.compile 绕过功能 (#30518)，并持续修复 v4/v5 兼容性问题，包括 PaddleOCR-VL 图像处理器 max_pixels (#38629)、Mistral YaRN 警告 (#37292) 以及 Jina ColBERT rotary inv_freq 重新计算 (#39176)。新大模型：Hunyuan v3 (Hy3) 预览版 (#40681) 及 HYV3 推理解析器 (#40713)；Granite 4.1 Vision 作为内置多模态模型 (#40282)。 FlashAttention 4 作为默认 MLA 预填充：FA4 重新启用为默认 MLA 预填充后端 (#38819)，在 SM90+ 上支持 head-dim 512 和 paged-KV (#38835)，加上上游 FA4 同步 (#38690)。 TurboQuant 2-bit KV 缓存：新的注意力后端，提供 4 倍容量的 2-bit KV 缓存压缩 (#38479)，现支持 FA3/FA4 预填充 (#40092)。在线量化前端：新的端到端在线量化前端 (#38138)，附带文档 (#39736)；experts_int8 合并到 FP8 在线路径中 (#38463)；MXFP8 在线量化移至新前端 (#40152)。 vLLM IR：初始 IR 骨架，包含 rms_norm 操作 (#33825)，OOT 平台内核导入 (#38807)，在 IR 上重做 gemma_rms_norm (#39014)，并添加 IR 操作测试/基准测试基础设施 (#40167) —— 为未来的内核工作奠定基础。 Model Runner V2 进展：Eagle 预填充完整 CUDA 图 (#37588)，根据注意力后端自动解析 cudagraph 模式/大小 (#32936)，融合的概率拒绝采样内核 (#38496)，不支持功能的配置验证 (#38758)，禁用 eagle draft 解码的分段回退 (#39773)，支持多个 prompt-logprobs (#39937)，预填充预热覆盖 (#40746)，以及修复由陈旧采样/草稿令牌引起的准确性回归问题 (#39833)。 MoE 重构系列：非量化迁移到 Full Oracle Flow (#36286)，CT W8A8 迁移到 Oracle (#39187)，SharedExperts 类 (#35153)，移除 SharedFusedMoE (#35782)，拆分 DefaultMoERunner (#35326) 随后又合并回 MoERunnerBase (#40560)，共享/融合专家输出求和移至 MoERunnerBase (#35949)，新框架中的 ZeroExpertFusedMoE (#35549)，compressed_tensors_moe.py 拆分 (#38960)，使用 MK 重做 GPTQMarlinMoEMethod (#37990)，XPU 和 CUTLASS MoE 移至 fused_moe/experts/ (#40568, #40574)，重命名 make_expert_params_mapping (#40671)，MoE LoRA 重构 (#40338)，移除 MoE DP 分块 (#39107)。性能：通过融合 rms norm 优化批处理不变性——端到端延迟提升 2.1% (#40413)；避免 seq_lens_cpu GPU→CPU 同步 (#40654)；缓存 InductorPass.hash_source (#39328)；加载时跳过 FX 图反序列化以加快预热编译 (#40151)；默认启用 CUDAGraph 内存分析，以更清晰地统计启动内存 (#38284)。模型支持新架构：DeepSeek V4 (#40860)，Hunyuan v3 预览版 (#40681)，Granite 4.1 Vision (#40282)，EXAONE-4.5 (#39388)，BharatGen Param2MoE (#38000)，Phi-4-reasoning-vision-15B (#38306)，Cheers 多模态 (#38788)，telechat3 (#38510)，FireRedLID (#39290)，jina-reranker-v3 (#38800)，Jina Embeddings v5 (#39575)，Nemotron-v3 VL Nano/Super (#39747)。 Gemma4 系列：快速预填充 (#38879)，量化 MoE (#39045)，Eagle3 (#39450)，Gemma3 的块局部注意力 + YaRN (#39823)，滑动层的双向视觉注意力 (#40534)，通过动态 BOS 修复令牌重复问题 (#39842)，多模态嵌入器规范顺序修复 (#40411)，以及一系列流式/工具调用修复 (#38844, #38909, #38992, #39114, #39679, #39027)。量化格式：MiniMax-M2.1 的 GGUF 支持 (#36965)，带有前缀如 UD-IQ1_S 的非标准 GGUF 量化类型 (#39471)。推测解码：MiniMax-M2 的 Eagle3 (#37512)，Gemma4 的 Eagle3 (#39450)。 LoRA：Qwen3ASRForConditionalGeneration (#37247)，Gemma4ForConditionalGeneration (#39291, #38844)，DeepSeek V3.2 (#35077)，Qwen3.5 / Step3.x 专家 base_layer 扩展 (#37114)，MoE LoRA 重构 (#40338)，双 CUDA 流线性层 (#35721)。多模态 MRoPE 刷新：Ernie-4.5 VL 的基于 mm_features 的 MRoPE (#39753)，Keye-VL / Keye-1.5-VL (#39869)，PaddleOCR-VL (#39888)。其他：Nano-Nemotron-VL 静态图像输入修复 (#40724)；Qwen3 MoE 不再调用两次 gate (#40664)；DeepSeek V2-Lite 准确性下降修复 (#40673)；Parakeet UX / 性能增强 (#39423)；ColModernVBERT 更新为最新 HF 检查点 (#39307)；NemotronH 默认 mamba_ssm_cache_dtype=float32，带 NemotronHNanoVLV2 自动钩子 (#39032)；Transformers 后端的新 TP 计划样式 (#40467)；ROCm 上的 GLM-5.1 修复 (#40763)。引擎核心 Model Runner V2：Eagle 预填充完整 CUDA 图 (#37588)，基于注意力后端的自动 cudagraph 模式/大小 (#32936)，融合的概率拒绝采样内核 (#38496)，配置验证 (#38758)，禁用 eagle-draft 分段回退 (#39773)，多个 prompt logprobs (#39937)，预填充预热覆盖 (#40746)，陈旧采样/草稿令牌准确性修复 (#39833)。 vLLM IR：IR 骨架 + rms_norm (#33825)，OOT 内核导入钩子 (#38807)，IR 上的 gemma_rms_norm (#39014)，IR 操作测试/基准测试基础设施 (#40167)。 torch.compile：PyTorch 2.11 上的不透明对象 (#39286)，具有批处理不变性模式的 AOT 编译 (#39201)，Inductor 缓存嵌套在 AOT 目录下 (#39718)，通过代码生成拆分 FX 图 (#38657)，为 torch≥2.12 重新启用 Inductor 预梯度传递 (#38944)，自定义操作中的字符串无编译回归 (#38123)，MLA + 组 FP8 融合 (#38877)，SiluMul 激活+量化融合重构 (#39684)，standalone_compile 的 donate_graph_module=True (#39733)，加载时跳过 FX 图反序列化 (#40151)，将 Inductor 和 functorch 配置包含在编译缓存键中 (#40627)，在 vLLM 配置级别尊重 TORCH_COMPILE_DISABLE (#40715)，为分段编译禁用序列并行 (#38373)。注意力：FA4 作为默认 MLA 预填充 (#38819)，sm90+FA4 上的 head-dim 512 + paged-KV (#38835)，FA4 上游同步 (#38690)，FlexAttention 的完整 CUDA 图 (#36298)，FlexAttention 非因果支持 (#40394)，统一的 2D/3D triton_unified_attention (#40631)，移植 TRTLLM minimax_allreduce_rms (#37045)，concat_mla_q 仅半类型 (#37892)，批处理不变性感知的后端自动选择 (#40193)，避免 seq_lens_cpu GPU→CPU 同步 (#40654)。 Helion 内核：支持 Helion 内核的 torch.compile (#38592)。 HMA / KV 卸载：HMA 的 GPU 侧 KV 事件 (#37688)，跟踪组块哈希/ID (#37109)，卸载工作者的统一内存布局 (#37206)，OffloadingConnector 上的 shutdown() (#39182)，KV 卸载传递请求上下文 (#39185)，滑动窗口查找 (#36645)，多组工作者传输 (#38453)，多 KV 组查找/加载/存储 (#39401, #39402, #39403)。特性：GPU 工作者的 NUMA 绑定 (#38635)，可选的 VLLM_MEDIA_CACHE 媒体 URL 缓存 (#37123)，FSM 无法推进时安全中止请求 (#38663)，KV 连接器优先于内部注册表 (#38301)，默认开启 CUDAGraph 内存分析 (#38284)，恢复共享专家重叠 (#39222)，当磁盘上 model_type 不同时修复 CONFIG_REGISTRY 配置类查找 (#39554)，workspace-resize GPU 内存泄漏修复 (#39226)，SWA/分块局部运行时准入限制在启动池大小边界内 (#40

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:25

为所有人提供简单、快速且低成本的 LLM 服务

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者 Slack |

vllm-project/vllm v0.20.0

相似文章

vllm-project/vllm v0.20.1

vllm-project/vllm v0.19.1

vllm-project/vllm v0.21.0rc1

vllm-project/vllm v0.20.0rc1

@vllm_project: vLLM v0.21.0 发布！367 次提交，来自 202 位贡献者（其中 49 位新贡献者）。亮点：KV 卸载 + HMA、带思考预算的推测解码（适用于推理模型）……

提交意见反馈