vllm-project/vllm v0.21.0rc1

GitHub Releases Watchlist 工具

摘要

vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。

[Build] 按 Python 版本构建捆绑的 DeepGEMM _C,以便 wheel 包能够导入 o…
查看原文
查看缓存全文

缓存时间: 2026/05/13 00:16

让每个人都能轻松、快速、低成本地部署 LLM

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者 Slack |

相似文章

vllm-project/vllm v0.20.0rc1

GitHub Releases Watchlist

vLLM 0.20.0rc1 发布,带来吞吐量、量化、投机解码及多硬件支持的重大改进,助力可扩展的大模型推理服务。

vllm-project/vllm v0.20.1

GitHub Releases Watchlist

vLLM v0.20.1 是一个小版本更新,针对这款流行的开源大语言模型推理和服务库,继续保持其高吞吐量和高效内存管理的核心优势。

vllm-project/vllm v0.20.0

GitHub Releases Watchlist

vLLM v0.20.0 已发布,这是一个用于高吞吐量 LLM 推理和服务的开源库,特色功能包括 PagedAttention 以及对多种硬件架构的支持。

vllm-project/vllm v0.19.1

GitHub Releases Watchlist

vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。