@vllm_project: vLLM v0.21.0 发布！367 次提交，来自 202 位贡献者（其中 49 位新贡献者）。亮点：KV 卸载 + HMA、带思考预算的推测解码（适用于推理模型）……

X AI KOLs Following 2026/05/16 01:52 工具

vllm release llm-inference kv-offload speculative-decoding reasoning-models open-source

摘要

vLLM v0.21.0 已发布，新增 KV 卸载 + HMA、面向推理模型的带思考预算的推测解码、适用于 DSR1/Kimi K2.5 的 Blackwell 上的 TOKENSPEED_MLA、Mooncake 分布式 KV、DeepSeek V4 流水线并行，以及 C++20 + Transformers v5 基线。

vLLM v0.21.0 发布！367 次提交，来自 202 位贡献者（其中 49 位新贡献者）。亮点：KV 卸载 + HMA、带思考预算的推测解码（推理模型）、适用于 DSR1 / Kimi K2.5 的 Blackwell 上的 TOKENSPEED_MLA、Mooncake 分布式 KV、DeepSeek V4 流水线并行。C++20 + Transformers v5 基线。讨论串

查看原文

查看缓存全文

缓存时间: 2026/05/16 21:23

vLLM v0.21.0 发布了！共 367 次提交，来自 202 位贡献者（其中 49 位新人）。

亮点包括：KV 卸载 + HMA、带有思考预算的推测解码（推理模型）、Blackwell 上的 TOKENSPEED_MLA（用于 DSR1 / Kimi K2.5）、Mooncake 分布式 KV、DeepSeek V4 流水线并行。C++20 + Transformers v5 基线。

话题

@vllm_project: vLLM v0.21.0 发布！367 次提交，来自 202 位贡献者（其中 49 位新贡献者）。亮点：KV 卸载 + HMA、带思考预算的推测解码（适用于推理模型）……

相似文章

vllm-project/vllm v0.20.0rc1

vllm-project/vllm v0.21.0rc1

vllm-project/vllm v0.20.1

vllm-project/vllm v0.20.0

vllm-project/vllm v0.19.1

提交意见反馈