@vllm_project: Rust 前端现已正式合并至 vLLM!随着 GPU 性能不断提升,前端已占据相当比例的 CPU 时间。…
摘要
vLLM 的 Rust 前端现已正式合并,可作为 Python API 服务器的直接替代方案,在预处理密集型工作负载上吞吐量提升高达 5 倍。
Rust 前端已正式合并至 vLLM!
随着 GPU 性能不断提升,前端已占据相当比例的 CPU 时间。新的 Rust 前端是 Python API 服务器的直接替代方案 —— 相同的引擎,相同的 ZMQ 边界。通过设置 VLLM_USE_RUST_FRONTEND=1 启用。
初步数据:在处理密集预处理的工作负载下,约 837 请求/秒 vs 默认 Python 的约 162 请求/秒 —— 单进程提升约 5 倍。
一些我们感到兴奋的设计选择:
• 分层 crate,界限清晰
• 原生流式管道 —— 自动获得非流式能力
• 基于稳定版 Rust 构建
特别感谢来自 @inferact 的 @BugenZhao 在新加坡 @PyTorch 见面会上介绍这项工作。
https://github.com/vllm-project/vllm/pull/40848…
查看缓存全文
缓存时间: 2026/05/27 09:21
简单、快速且低成本的 LLM 服务,面向所有人
| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者 Slack |
相似文章
vllm-project/vllm v0.19.1
vLLM v0.19.1 发布 - 一个快速易用的开源 LLM 推理和服务库,拥有业界领先的吞吐量,支持 200+ 个模型架构以及包括 NVIDIA/AMD GPU 和 CPU 在内的多样化硬件。
GPU上的无畏并发:在Rust中进行安全的GPU推理,与vLLM/SGLang竞争 [R]
cuTile Rust 引入了一种基于块(tile)的编程模型,利用 Rust 的所有权机制来保证 GPU 内核的内存安全和无数据竞争,基于该模型构建的 Grout 推理引擎在 Qwen3 模型上实现了与 vLLM/SGLang 相当的吞吐量。
vllm-project/vllm v0.21.0rc1
vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。
@binsquares:天哪,smolvm 上的 GPU 加速效果远比我预想的好。可以在 smol 机器内运行 llama.cpp,性能接近……
用户 @binsquares 报告称,smolvm 上的 GPU 加速通过 Vulkan 后端运行 llama.cpp 时,可获得接近 90% 的主机性能。
@QingQ77: 用纯 Rust 实现 LLM 推理引擎,针对每种硬件×模型×量化组合定制 CUDA 内核,跑出比 vLLM 和 TensorRT-LLM 更高的推理速度。 https://github.com/Avarok-Cybersecurity/a…
Atlas 是一个纯 Rust 实现的 LLM 推理引擎,通过为每种硬件×模型×量化组合定制 CUDA 内核,实现了比 vLLM 和 TensorRT-LLM 更快的推理速度。