@RedHat_AI: Michael Goin (@mgoin_) 详解 @vllm_project v0.20.0。752 次提交。320 位贡献者。123 位新贡献者。DeepSeek V4, TurboQ…
摘要
Michael Goin 回顾了 vLLM v0.20.0 的发布,重点介绍了 752 次代码提交以及新功能,包括对 DeepSeek V4 的支持、TurboQuant 技术以及 PyTorch 2.11 的集成。
查看缓存全文
缓存时间: 2026/05/11 06:36
Michael Goin (@mgoin_) 深入解析了 @vllm_project v0.20.0 版本。
752 次提交,320 位贡献者,其中 123 位是新加入的。🚀 🎉
支持 DeepSeek V4、TurboQuant 2-bit KV 缓存、Blackwell 平台上的 MoE MXFP4 支持、默认启用 FA4 作为 MLA 预填充引擎、升级至 @PyTorch 2.11 与 CUDA 13.0、适配 Transformers V5,以及更多新特性。
视频时长约 8 分钟。https://t.co/Tdg1hIW4yk
相似文章
@vllm_project: vLLM v0.21.0 发布!367 次提交,来自 202 位贡献者(其中 49 位新贡献者)。亮点:KV 卸载 + HMA、带思考预算的推测解码(适用于推理模型)……
vLLM v0.21.0 已发布,新增 KV 卸载 + HMA、面向推理模型的带思考预算的推测解码、适用于 DSR1/Kimi K2.5 的 Blackwell 上的 TOKENSPEED_MLA、Mooncake 分布式 KV、DeepSeek V4 流水线并行,以及 C++20 + Transformers v5 基线。
vllm-project/vllm v0.21.0rc1
vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。
vllm-project/vllm v0.20.0
vLLM v0.20.0 已发布,这是一个用于高吞吐量 LLM 推理和服务的开源库,特色功能包括 PagedAttention 以及对多种硬件架构的支持。
@dbreunig:大版本发布:RLM 优化、优化链串联、LiteLLM 解耦启动,并有 24 位首次贡献者…
重磅开源版本:RLM 优化、优化链串联、LiteLLM 解耦启动,迎来 24 位新贡献者。
@mudler_it: LocalAI ( @LocalAI_API ) 4.2.0 已发布,简要数据和事实:- +392 次提交(我们合并了这些提交)- +11 个后端:v…
LocalAI 4.2.0 发布,包含超过 392 次提交,11 个新后端(包括语音和面部识别),增强了对 sglang 和 VLLM 的支持,并有来自 16 多位新开发者的贡献。