@RedHat_AI: Michael Goin (@mgoin_) 详解 @vllm_project v0.20.0。752 次提交。320 位贡献者。123 位新贡献者。DeepSeek V4, TurboQ…

X AI KOLs Timeline 工具

摘要

Michael Goin 回顾了 vLLM v0.20.0 的发布,重点介绍了 752 次代码提交以及新功能,包括对 DeepSeek V4 的支持、TurboQuant 技术以及 PyTorch 2.11 的集成。

Michael Goin (@mgoin_) 详解 @vllm_project v0.20.0。 752 次提交。320 位贡献者。123 位新贡献者。🚀 🎉 支持 DeepSeek V4、TurboQuant 2 位 KV 缓存、Blackwell 架构上的 MoE 使用 MXFP4、将 FA4 设为 MLA 预填充默认选项、集成 @PyTorch 2.11 + CUDA 13.0、Transformers V5 以及更多更新。 时长约 8 分钟。https://t.co/Tdg1hIW4yk
查看原文
查看缓存全文

缓存时间: 2026/05/11 06:36

Michael Goin (@mgoin_) 深入解析了 @vllm_project v0.20.0 版本。

752 次提交,320 位贡献者,其中 123 位是新加入的。🚀 🎉

支持 DeepSeek V4、TurboQuant 2-bit KV 缓存、Blackwell 平台上的 MoE MXFP4 支持、默认启用 FA4 作为 MLA 预填充引擎、升级至 @PyTorch 2.11 与 CUDA 13.0、适配 Transformers V5,以及更多新特性。

视频时长约 8 分钟。https://t.co/Tdg1hIW4yk

相似文章

vllm-project/vllm v0.21.0rc1

GitHub Releases Watchlist

vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。

vllm-project/vllm v0.20.0

GitHub Releases Watchlist

vLLM v0.20.0 已发布,这是一个用于高吞吐量 LLM 推理和服务的开源库,特色功能包括 PagedAttention 以及对多种硬件架构的支持。