vllm-project/vllm v0.20.0rc1

GitHub Releases Watchlist 2026/04/22 09:00 工具

llm-inference open-source serving gpu-optimization pagedattention

摘要

vLLM 0.20.0rc1 发布，带来吞吐量、量化、投机解码及多硬件支持的重大改进，助力可扩展的大模型推理服务。

回退“【杂项】将 pyav 与 soundfile 移至通用依赖” (#…

查看缓存全文

缓存时间: 2026/04/22 11:45

简单、快速、人人都能用的低成本 LLM 服务

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者 Slack |

相似文章

GitHub Releases Watchlist

vLLM v0.20.1 是一个小版本更新，针对这款流行的开源大语言模型推理和服务库，继续保持其高吞吐量和高效内存管理的核心优势。

GitHub Releases Watchlist

vLLM v0.20.0 已发布，这是一个用于高吞吐量 LLM 推理和服务的开源库，特色功能包括 PagedAttention 以及对多种硬件架构的支持。

GitHub Releases Watchlist

vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库，拥有业界领先的吞吐量，支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。

GitHub Releases Watchlist

vLLM v0.19.1rc0 版本包含对 Gemma4 实现的清理，这是对该流行的开源大语言模型推理与服务库的常规维护与优化的一部分。

GitHub Releases Watchlist

vLLM v0.19.2rc0 候选版本包含了对 GLM-ASR 模型中 k_proj 偏置处理的错误修复，解决了 LLM 服务框架中的一个特定兼容性问题。