@vllm_project: Rust 前端现已正式合并至 vLLM！随着 GPU 性能不断提升，前端已占据相当比例的 CPU 时间。…

X AI KOLs Timeline 2026/05/26 18:43 工具

rust vllm llm-serving performance open-source frontend

摘要

vLLM 的 Rust 前端现已正式合并，可作为 Python API 服务器的直接替代方案，在预处理密集型工作负载上吞吐量提升高达 5 倍。

Rust 前端已正式合并至 vLLM！随着 GPU 性能不断提升，前端已占据相当比例的 CPU 时间。新的 Rust 前端是 Python API 服务器的直接替代方案 —— 相同的引擎，相同的 ZMQ 边界。通过设置 VLLM_USE_RUST_FRONTEND=1 启用。初步数据：在处理密集预处理的工作负载下，约 837 请求/秒 vs 默认 Python 的约 162 请求/秒 —— 单进程提升约 5 倍。一些我们感到兴奋的设计选择： • 分层 crate，界限清晰 • 原生流式管道 —— 自动获得非流式能力 • 基于稳定版 Rust 构建特别感谢来自 @inferact 的 @BugenZhao 在新加坡 @PyTorch 见面会上介绍这项工作。 https://github.com/vllm-project/vllm/pull/40848…

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:21

简单、快速且低成本的 LLM 服务，面向所有人

| 文档 | 博客 | 论文 | Twitter/X | 用户论坛 | 开发者 Slack |

@QingQ77: 用纯 Rust 实现 LLM 推理引擎，针对每种硬件×模型×量化组合定制 CUDA 内核，跑出比 vLLM 和 TensorRT-LLM 更高的推理速度。 https://github.com/Avarok-Cybersecurity/a…

X AI KOLs Timeline

Atlas 是一个纯 Rust 实现的 LLM 推理引擎，通过为每种硬件×模型×量化组合定制 CUDA 内核，实现了比 vLLM 和 TensorRT-LLM 更快的推理速度。

@vllm_project: Rust 前端现已正式合并至 vLLM！随着 GPU 性能不断提升，前端已占据相当比例的 CPU 时间。…

相似文章

vllm-project/vllm v0.19.1

GPU上的无畏并发：在Rust中进行安全的GPU推理，与vLLM/SGLang竞争 [R]

vllm-project/vllm v0.21.0rc1

@binsquares：天哪，smolvm 上的 GPU 加速效果远比我预想的好。可以在 smol 机器内运行 llama.cpp，性能接近……

@QingQ77: 用纯 Rust 实现 LLM 推理引擎，针对每种硬件×模型×量化组合定制 CUDA 内核，跑出比 vLLM 和 TensorRT-LLM 更高的推理速度。 https://github.com/Avarok-Cybersecurity/a…

提交意见反馈