@raydistributed: Ray Serve LLM 现在在预填充密集型工作负载上提供4.4倍的更高请求吞吐量,以及在解码密集型工作负载上提供24.8倍的更高请求吞吐量…
摘要
Ray Serve LLM 通过直接流式传输、新的 vLLM V2 执行器后端和 HAProxy 入口,在预填充和解码密集型工作负载上实现了4.4倍和24.8倍的吞吐量提升,现已在 Ray 2.56 中推出,与 Google Cloud 和 vLLM 合作。
查看缓存全文
缓存时间: 2026/06/18 22:11
Ray Serve LLM 现在针对预填充密集型工作负载可将请求吞吐量提升 4.4 倍,针对解码密集型工作负载可将请求吞吐量提升 24.8 倍!
三大核心优化:
- 直接流式传输,通过新增的纯控制平面端点选择器,绕过响应路径上的中间 Ray Serve 部署
- vLLM 中新增的 Ray V2 执行器后端,支持异步调度等优化
- HAProxy 入口,实现 C 语言级别的入口请求路由速度
以上功能均在 Ray 2.56 版本中提供。这是与 @googlecloud 和 @vllm_project 合作的卓越成果!
Seiji Eicher (@seiji_________): 今天,我们很高兴地宣布,与 Google Cloud 的 GKE 团队 (@googlecloud) 合作,Ray Serve LLM 在生产服务能力上达到了一个重大里程碑。Ray Serve LLM 现在已能匹敌基于 Rust 的高性能路由框架(如 vllm-router @vllm_project)的表现。
相似文章
@seiji_________: 今天,我们激动地宣布,与 Google Cloud 的 GKE 团队(@googlecloud)合作,一项重大里程碑……
Ray Serve LLM 在 Ray 2.56 中,对预填充密集型工作负载实现了高达 4 倍的吞吐量提升,对解码密集型工作负载实现了 24 倍的提升,在生产基准测试中与基于 Rust 的路由框架(如 vllm-router)性能相当,这是与 Google Cloud GKE 团队合作宣布的。
vllm-project/vllm v0.20.0rc1
vLLM 0.20.0rc1 发布,带来吞吐量、量化、投机解码及多硬件支持的重大改进,助力可扩展的大模型推理服务。
vllm-project/vllm v0.21.0rc1
vLLM v0.21.0rc1 是高性能大语言模型推理和服务库的预发布更新,主要功能包括针对吞吐量、量化以及硬件支持的优化。
@robertnishihara: 关于PD分离的一些直觉——PD不会加速预填充,实际上可能损害TTFT——PD的真正…
这篇来自Anyscale的博客文章解释了LLM服务中Prefill-Decode(PD)分离的直觉,展示了如何将预填充和解码阶段分配到专用GPU上,在使用Ray和vLLM的AMD MI325X上实现高达2.7倍的有效吞吐量提升和67%的成本节省,同时也讨论了PD分离何时没有帮助。
@AndrewYNg:全新课程:高效部署 LLM——如何以低延迟、合理成本为大量并发用户提供模型服务…
Andrew Ng 与 DeepLearning.AI 联合 Red Hat 推出了一门关于使用 vLLM 进行高效 LLM 推理的短期课程,内容涵盖量化、PagedAttention、连续批处理以及大规模 LLM 服务的性能基准测试。