@vllm_project: Rust 前端现已正式合并至 vLLM!随着 GPU 性能不断提升,前端已占据相当比例的 CPU 时间。…

X AI KOLs Timeline 工具

摘要

vLLM 的 Rust 前端现已正式合并,可作为 Python API 服务器的直接替代方案,在预处理密集型工作负载上吞吐量提升高达 5 倍。

Rust 前端已正式合并至 vLLM! 随着 GPU 性能不断提升,前端已占据相当比例的 CPU 时间。新的 Rust 前端是 Python API 服务器的直接替代方案 —— 相同的引擎,相同的 ZMQ 边界。通过设置 VLLM_USE_RUST_FRONTEND=1 启用。 初步数据:在处理密集预处理的工作负载下,约 837 请求/秒 vs 默认 Python 的约 162 请求/秒 —— 单进程提升约 5 倍。 一些我们感到兴奋的设计选择: • 分层 crate,界限清晰 • 原生流式管道 —— 自动获得非流式能力 • 基于稳定版 Rust 构建 特别感谢来自 @inferact 的 @BugenZhao 在新加坡 @PyTorch 见面会上介绍这项工作。 https://github.com/vllm-project/vllm/pull/40848…
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:21

简单、快速且低成本的 LLM 服务,面向所有人

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者 Slack |

相似文章

vllm-project/vllm v0.19.1

GitHub Releases Watchlist

vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。

vllm-project/vllm v0.21.0rc1

GitHub Releases Watchlist

vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。