@raydistributed: Ray Serve LLM 现在在预填充密集型工作负载上提供4.4倍的更高请求吞吐量,以及在解码密集型工作负载上提供24.8倍的更高请求吞吐量…

X AI KOLs Following 工具

摘要

Ray Serve LLM 通过直接流式传输、新的 vLLM V2 执行器后端和 HAProxy 入口,在预填充和解码密集型工作负载上实现了4.4倍和24.8倍的吞吐量提升,现已在 Ray 2.56 中推出,与 Google Cloud 和 vLLM 合作。

Ray Serve LLM 现在在预填充密集型工作负载上提供4.4倍的更高请求吞吐量,在解码密集型工作负载上提供24.8倍的更高请求吞吐量! 三大优化: - 直接流式传输,通过新的仅控制平面端点选择器绕过响应路径上的中间 Ray Serve 部署 - vLLM 中新的 Ray V2 执行器后端,支持异步调度等优化 - HAProxy 入口,以 C 语言的速度进行入口请求路由 以上功能均在 Ray 2.56 中提供。这是与 @googlecloud 和 @vllm_project 合作完成的出色工作!
查看原文
查看缓存全文

缓存时间: 2026/06/18 22:11

Ray Serve LLM 现在针对预填充密集型工作负载可将请求吞吐量提升 4.4 倍,针对解码密集型工作负载可将请求吞吐量提升 24.8 倍!

三大核心优化:

  • 直接流式传输,通过新增的纯控制平面端点选择器,绕过响应路径上的中间 Ray Serve 部署
  • vLLM 中新增的 Ray V2 执行器后端,支持异步调度等优化
  • HAProxy 入口,实现 C 语言级别的入口请求路由速度

以上功能均在 Ray 2.56 版本中提供。这是与 @googlecloud 和 @vllm_project 合作的卓越成果!

Seiji Eicher (@seiji_________): 今天,我们很高兴地宣布,与 Google Cloud 的 GKE 团队 (@googlecloud) 合作,Ray Serve LLM 在生产服务能力上达到了一个重大里程碑。Ray Serve LLM 现在已能匹敌基于 Rust 的高性能路由框架(如 vllm-router @vllm_project)的表现。

相似文章

vllm-project/vllm v0.20.0rc1

GitHub Releases Watchlist

vLLM 0.20.0rc1 发布,带来吞吐量、量化、投机解码及多硬件支持的重大改进,助力可扩展的大模型推理服务。

vllm-project/vllm v0.21.0rc1

GitHub Releases Watchlist

vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。