@seiji_________: 今天,我们激动地宣布,与 Google Cloud 的 GKE 团队(@googlecloud)合作,一项重大里程碑……

X AI KOLs Following 工具

摘要

Ray Serve LLM 在 Ray 2.56 中,对预填充密集型工作负载实现了高达 4 倍的吞吐量提升,对解码密集型工作负载实现了 24 倍的提升,在生产基准测试中与基于 Rust 的路由框架(如 vllm-router)性能相当,这是与 Google Cloud GKE 团队合作宣布的。

今天,我们激动地宣布,与 Google Cloud 的 GKE 团队(@googlecloud)合作,Ray Serve LLM 的生产服务能力迎来了一项重大里程碑。Ray Serve LLM 现在在各种工作负载和部署模式的基准测试中,与高性能的基于 Rust 的路由框架(如 vllm-router(@vllm_project))性能相当。 在 Ray 2.56 中,我们观察到预填充密集型工作负载的请求吞吐量提升了高达 4 倍,解码密集型工作负载的请求吞吐量提升了高达 24 倍。
查看原文
查看缓存全文

缓存时间: 2026/06/19 00:14

今天我们兴奋地宣布,与 Google Cloud (@googlecloud) 的 GKE 团队合作,Ray Serve LLM 的生产部署能力达到了重要里程碑。Ray Serve LLM 现在在多种负载和部署模式的基准测试中,能够与 vllm-router (@vllm_project) 等高性能、基于 Rust 的路由框架相匹敌。

在 Ray 2.56 中,预填充密集型负载的请求吞吐量提升高达 4 倍,解码密集型负载的请求吞吐量提升高达 24 倍。

相似文章