@seiji_________: 今天，我们激动地宣布，与 Google Cloud 的 GKE 团队（@googlecloud）合作，一项重大里程碑……

X AI KOLs Following 2026/06/18 16:00 工具

ray serve-llm performance throughput gke vllm-router

摘要

Ray Serve LLM 在 Ray 2.56 中，对预填充密集型工作负载实现了高达 4 倍的吞吐量提升，对解码密集型工作负载实现了 24 倍的提升，在生产基准测试中与基于 Rust 的路由框架（如 vllm-router）性能相当，这是与 Google Cloud GKE 团队合作宣布的。

今天，我们激动地宣布，与 Google Cloud 的 GKE 团队（@googlecloud）合作，Ray Serve LLM 的生产服务能力迎来了一项重大里程碑。Ray Serve LLM 现在在各种工作负载和部署模式的基准测试中，与高性能的基于 Rust 的路由框架（如 vllm-router（@vllm_project））性能相当。在 Ray 2.56 中，我们观察到预填充密集型工作负载的请求吞吐量提升了高达 4 倍，解码密集型工作负载的请求吞吐量提升了高达 24 倍。

查看原文

查看缓存全文

缓存时间: 2026/06/19 00:14

今天我们兴奋地宣布，与 Google Cloud (@googlecloud) 的 GKE 团队合作，Ray Serve LLM 的生产部署能力达到了重要里程碑。Ray Serve LLM 现在在多种负载和部署模式的基准测试中，能够与 vllm-router (@vllm_project) 等高性能、基于 Rust 的路由框架相匹敌。

在 Ray 2.56 中，预填充密集型负载的请求吞吐量提升高达 4 倍，解码密集型负载的请求吞吐量提升高达 24 倍。

@seiji_________: 今天，我们激动地宣布，与 Google Cloud 的 GKE 团队（@googlecloud）合作，一项重大里程碑……

相似文章

@raydistributed: Ray Serve LLM 现在在预填充密集型工作负载上提供4.4倍的更高请求吞吐量，以及在解码密集型工作负载上提供24.8倍的更高请求吞吐量…

@vllm_project: Rust 前端现已正式合并至 vLLM！随着 GPU 性能不断提升，前端已占据相当比例的 CPU 时间。…

@charles_irl: 推理并非一切，但它确实需要一个新的技术栈——不是 Kubernetes，也不是 SLURM。在 @modal，我们深入探索构建…

@yukangchen_: 我们很高兴分享一篇新的技术文章《KV缓存压缩及其基础设施问题》。https://research.nvidia.…

@GergelyOrosz: 好的，这是我刚刚了解到的 Google Cloud Run 的一个卓越特性构建区域冗余需要大量工作… 当…

提交意见反馈