@raydistributed: Ray Serve LLM 现在在预填充密集型工作负载上提供4.4倍的更高请求吞吐量，以及在解码密集型工作负载上提供24.8倍的更高请求吞吐量…

X AI KOLs Following 2026/06/18 16:22 工具

ray-serve llm-serving throughput-optimization inference google-cloud vllm high-performance

摘要

Ray Serve LLM 通过直接流式传输、新的 vLLM V2 执行器后端和 HAProxy 入口，在预填充和解码密集型工作负载上实现了4.4倍和24.8倍的吞吐量提升，现已在 Ray 2.56 中推出，与 Google Cloud 和 vLLM 合作。

Ray Serve LLM 现在在预填充密集型工作负载上提供4.4倍的更高请求吞吐量，在解码密集型工作负载上提供24.8倍的更高请求吞吐量！三大优化： - 直接流式传输，通过新的仅控制平面端点选择器绕过响应路径上的中间 Ray Serve 部署 - vLLM 中新的 Ray V2 执行器后端，支持异步调度等优化 - HAProxy 入口，以 C 语言的速度进行入口请求路由以上功能均在 Ray 2.56 中提供。这是与 @googlecloud 和 @vllm_project 合作完成的出色工作！

查看原文

查看缓存全文

缓存时间: 2026/06/18 22:11

Ray Serve LLM 现在针对预填充密集型工作负载可将请求吞吐量提升 4.4 倍，针对解码密集型工作负载可将请求吞吐量提升 24.8 倍！

三大核心优化：

直接流式传输，通过新增的纯控制平面端点选择器，绕过响应路径上的中间 Ray Serve 部署
vLLM 中新增的 Ray V2 执行器后端，支持异步调度等优化
HAProxy 入口，实现 C 语言级别的入口请求路由速度

以上功能均在 Ray 2.56 版本中提供。这是与 @googlecloud 和 @vllm_project 合作的卓越成果！

Seiji Eicher (@seiji_________): 今天，我们很高兴地宣布，与 Google Cloud 的 GKE 团队 (@googlecloud) 合作，Ray Serve LLM 在生产服务能力上达到了一个重大里程碑。Ray Serve LLM 现在已能匹敌基于 Rust 的高性能路由框架（如 vllm-router @vllm_project）的表现。

@raydistributed: Ray Serve LLM 现在在预填充密集型工作负载上提供4.4倍的更高请求吞吐量，以及在解码密集型工作负载上提供24.8倍的更高请求吞吐量…

相似文章

@seiji_________: 今天，我们激动地宣布，与 Google Cloud 的 GKE 团队（@googlecloud）合作，一项重大里程碑……

vllm-project/vllm v0.20.0rc1

vllm-project/vllm v0.21.0rc1

@robertnishihara: 关于PD分离的一些直觉——PD不会加速预填充，实际上可能损害TTFT——PD的真正…

@AndrewYNg：全新课程：高效部署 LLM——如何以低延迟、合理成本为大量并发用户提供模型服务…

提交意见反馈