vllm-project/vllm v0.20.0

GitHub Releases Watchlist 工具

摘要

vLLM v0.20.0 已发布,这是一个用于高吞吐量 LLM 推理和服务的开源库,特色功能包括 PagedAttention 以及对多种硬件架构的支持。

vLLM v0.20.0 亮点 本次发布包含来自 320 位贡献者(其中 123 位为新贡献者)的 752 个提交! DeepSeek V4:初步支持 DeepSeek V4 (#40860),修复了 DSV4/3.2 中的 DSML 令牌泄漏问题 (#40806),修复了 DSA + MTP IMA 问题 (#40772),并对共享专家添加了 silu 钳位限制 (#40950)。 CUDA 13.0 默认版本:PyPI 上的默认 CUDA wheel 和 vllm/vllm-openai:v0.20.0 镜像已切换至 CUDA 13.0;清理了架构列表和构建参数 (#39878),并将 CUDA 提升至 13.0.2 以匹配 PyTorch 2.11.0 (#40669)。一般原则是,我们的 CUDA 版本策略遵循 PyTorch。我们强烈建议使用 uv 安装 vLLM,如果您使用的是 CUDA 12.9,请使用 --torch-backend=cu129。 PyTorch 2.11 升级 (#34644):vLLM 在 CUDA 上基于 torch 2.11 运行,XPU 现在也基于 torch 2.11 (#37947) —— XPU 不再锁定在 2.10。这是一个破坏性变更,影响环境依赖。 Python 3.14:已添加到受支持的 Python 版本列表中 (#34770)。 Transformers v5:vLLM 现在可以在 HuggingFace transformers>=5 上运行 (#30566),具有视觉编码器 torch.compile 绕过功能 (#30518),并持续修复 v4/v5 兼容性问题,包括 PaddleOCR-VL 图像处理器 max_pixels (#38629)、Mistral YaRN 警告 (#37292) 以及 Jina ColBERT rotary inv_freq 重新计算 (#39176)。 新大模型:Hunyuan v3 (Hy3) 预览版 (#40681) 及 HYV3 推理解析器 (#40713);Granite 4.1 Vision 作为内置多模态模型 (#40282)。 FlashAttention 4 作为默认 MLA 预填充:FA4 重新启用为默认 MLA 预填充后端 (#38819),在 SM90+ 上支持 head-dim 512 和 paged-KV (#38835),加上上游 FA4 同步 (#38690)。 TurboQuant 2-bit KV 缓存:新的注意力后端,提供 4 倍容量的 2-bit KV 缓存压缩 (#38479),现支持 FA3/FA4 预填充 (#40092)。 在线量化前端:新的端到端在线量化前端 (#38138),附带文档 (#39736);experts_int8 合并到 FP8 在线路径中 (#38463);MXFP8 在线量化移至新前端 (#40152)。 vLLM IR:初始 IR 骨架,包含 rms_norm 操作 (#33825),OOT 平台内核导入 (#38807),在 IR 上重做 gemma_rms_norm (#39014),并添加 IR 操作测试/基准测试基础设施 (#40167) —— 为未来的内核工作奠定基础。 Model Runner V2 进展:Eagle 预填充完整 CUDA 图 (#37588),根据注意力后端自动解析 cudagraph 模式/大小 (#32936),融合的概率拒绝采样内核 (#38496),不支持功能的配置验证 (#38758),禁用 eagle draft 解码的分段回退 (#39773),支持多个 prompt-logprobs (#39937),预填充预热覆盖 (#40746),以及修复由陈旧采样/草稿令牌引起的准确性回归问题 (#39833)。 MoE 重构系列:非量化迁移到 Full Oracle Flow (#36286),CT W8A8 迁移到 Oracle (#39187),SharedExperts 类 (#35153),移除 SharedFusedMoE (#35782),拆分 DefaultMoERunner (#35326) 随后又合并回 MoERunnerBase (#40560),共享/融合专家输出求和移至 MoERunnerBase (#35949),新框架中的 ZeroExpertFusedMoE (#35549),compressed_tensors_moe.py 拆分 (#38960),使用 MK 重做 GPTQMarlinMoEMethod (#37990),XPU 和 CUTLASS MoE 移至 fused_moe/experts/ (#40568, #40574),重命名 make_expert_params_mapping (#40671),MoE LoRA 重构 (#40338),移除 MoE DP 分块 (#39107)。 性能:通过融合 rms norm 优化批处理不变性——端到端延迟提升 2.1% (#40413);避免 seq_lens_cpu GPU→CPU 同步 (#40654);缓存 InductorPass.hash_source (#39328);加载时跳过 FX 图反序列化以加快预热编译 (#40151);默认启用 CUDAGraph 内存分析,以更清晰地统计启动内存 (#38284)。 模型支持 新架构:DeepSeek V4 (#40860),Hunyuan v3 预览版 (#40681),Granite 4.1 Vision (#40282),EXAONE-4.5 (#39388),BharatGen Param2MoE (#38000),Phi-4-reasoning-vision-15B (#38306),Cheers 多模态 (#38788),telechat3 (#38510),FireRedLID (#39290),jina-reranker-v3 (#38800),Jina Embeddings v5 (#39575),Nemotron-v3 VL Nano/Super (#39747)。 Gemma4 系列:快速预填充 (#38879),量化 MoE (#39045),Eagle3 (#39450),Gemma3 的块局部注意力 + YaRN (#39823),滑动层的双向视觉注意力 (#40534),通过动态 BOS 修复令牌重复问题 (#39842),多模态嵌入器规范顺序修复 (#40411),以及一系列流式/工具调用修复 (#38844, #38909, #38992, #39114, #39679, #39027)。 量化格式:MiniMax-M2.1 的 GGUF 支持 (#36965),带有前缀如 UD-IQ1_S 的非标准 GGUF 量化类型 (#39471)。 推测解码:MiniMax-M2 的 Eagle3 (#37512),Gemma4 的 Eagle3 (#39450)。 LoRA:Qwen3ASRForConditionalGeneration (#37247),Gemma4ForConditionalGeneration (#39291, #38844),DeepSeek V3.2 (#35077),Qwen3.5 / Step3.x 专家 base_layer 扩展 (#37114),MoE LoRA 重构 (#40338),双 CUDA 流线性层 (#35721)。 多模态 MRoPE 刷新:Ernie-4.5 VL 的基于 mm_features 的 MRoPE (#39753),Keye-VL / Keye-1.5-VL (#39869),PaddleOCR-VL (#39888)。 其他:Nano-Nemotron-VL 静态图像输入修复 (#40724);Qwen3 MoE 不再调用两次 gate (#40664);DeepSeek V2-Lite 准确性下降修复 (#40673);Parakeet UX / 性能增强 (#39423);ColModernVBERT 更新为最新 HF 检查点 (#39307);NemotronH 默认 mamba_ssm_cache_dtype=float32,带 NemotronHNanoVLV2 自动钩子 (#39032);Transformers 后端的新 TP 计划样式 (#40467);ROCm 上的 GLM-5.1 修复 (#40763)。 引擎核心 Model Runner V2:Eagle 预填充完整 CUDA 图 (#37588),基于注意力后端的自动 cudagraph 模式/大小 (#32936),融合的概率拒绝采样内核 (#38496),配置验证 (#38758),禁用 eagle-draft 分段回退 (#39773),多个 prompt logprobs (#39937),预填充预热覆盖 (#40746),陈旧采样/草稿令牌准确性修复 (#39833)。 vLLM IR:IR 骨架 + rms_norm (#33825),OOT 内核导入钩子 (#38807),IR 上的 gemma_rms_norm (#39014),IR 操作测试/基准测试基础设施 (#40167)。 torch.compile:PyTorch 2.11 上的不透明对象 (#39286),具有批处理不变性模式的 AOT 编译 (#39201),Inductor 缓存嵌套在 AOT 目录下 (#39718),通过代码生成拆分 FX 图 (#38657),为 torch≥2.12 重新启用 Inductor 预梯度传递 (#38944),自定义操作中的字符串无编译回归 (#38123),MLA + 组 FP8 融合 (#38877),SiluMul 激活+量化融合重构 (#39684),standalone_compile 的 donate_graph_module=True (#39733),加载时跳过 FX 图反序列化 (#40151),将 Inductor 和 functorch 配置包含在编译缓存键中 (#40627),在 vLLM 配置级别尊重 TORCH_COMPILE_DISABLE (#40715),为分段编译禁用序列并行 (#38373)。 注意力:FA4 作为默认 MLA 预填充 (#38819),sm90+FA4 上的 head-dim 512 + paged-KV (#38835),FA4 上游同步 (#38690),FlexAttention 的完整 CUDA 图 (#36298),FlexAttention 非因果支持 (#40394),统一的 2D/3D triton_unified_attention (#40631),移植 TRTLLM minimax_allreduce_rms (#37045),concat_mla_q 仅半类型 (#37892),批处理不变性感知的后端自动选择 (#40193),避免 seq_lens_cpu GPU→CPU 同步 (#40654)。 Helion 内核:支持 Helion 内核的 torch.compile (#38592)。 HMA / KV 卸载:HMA 的 GPU 侧 KV 事件 (#37688),跟踪组块哈希/ID (#37109),卸载工作者的统一内存布局 (#37206),OffloadingConnector 上的 shutdown() (#39182),KV 卸载传递请求上下文 (#39185),滑动窗口查找 (#36645),多组工作者传输 (#38453),多 KV 组查找/加载/存储 (#39401, #39402, #39403)。 特性:GPU 工作者的 NUMA 绑定 (#38635),可选的 VLLM_MEDIA_CACHE 媒体 URL 缓存 (#37123),FSM 无法推进时安全中止请求 (#38663),KV 连接器优先于内部注册表 (#38301),默认开启 CUDAGraph 内存分析 (#38284),恢复共享专家重叠 (#39222),当磁盘上 model_type 不同时修复 CONFIG_REGISTRY 配置类查找 (#39554),workspace-resize GPU 内存泄漏修复 (#39226),SWA/分块局部运行时准入限制在启动池大小边界内 (#40
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:25

为所有人提供简单、快速且低成本的 LLM 服务

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者 Slack |

相似文章

vllm-project/vllm v0.20.1

GitHub Releases Watchlist

vLLM v0.20.1 是一个小版本更新,针对这款流行的开源大语言模型推理和服务库,继续保持其高吞吐量和高效内存管理的核心优势。

vllm-project/vllm v0.19.1

GitHub Releases Watchlist

vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。

vllm-project/vllm v0.21.0rc1

GitHub Releases Watchlist

vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。

vllm-project/vllm v0.20.0rc1

GitHub Releases Watchlist

vLLM 0.20.0rc1 发布,带来吞吐量、量化、投机解码及多硬件支持的重大改进,助力可扩展的大模型推理服务。