@seiji_________: 今天,我们激动地宣布,与 Google Cloud 的 GKE 团队(@googlecloud)合作,一项重大里程碑……
摘要
Ray Serve LLM 在 Ray 2.56 中,对预填充密集型工作负载实现了高达 4 倍的吞吐量提升,对解码密集型工作负载实现了 24 倍的提升,在生产基准测试中与基于 Rust 的路由框架(如 vllm-router)性能相当,这是与 Google Cloud GKE 团队合作宣布的。
查看缓存全文
缓存时间: 2026/06/19 00:14
今天我们兴奋地宣布,与 Google Cloud (@googlecloud) 的 GKE 团队合作,Ray Serve LLM 的生产部署能力达到了重要里程碑。Ray Serve LLM 现在在多种负载和部署模式的基准测试中,能够与 vllm-router (@vllm_project) 等高性能、基于 Rust 的路由框架相匹敌。
在 Ray 2.56 中,预填充密集型负载的请求吞吐量提升高达 4 倍,解码密集型负载的请求吞吐量提升高达 24 倍。
相似文章
@raydistributed: Ray Serve LLM 现在在预填充密集型工作负载上提供4.4倍的更高请求吞吐量,以及在解码密集型工作负载上提供24.8倍的更高请求吞吐量…
Ray Serve LLM 通过直接流式传输、新的 vLLM V2 执行器后端和 HAProxy 入口,在预填充和解码密集型工作负载上实现了4.4倍和24.8倍的吞吐量提升,现已在 Ray 2.56 中推出,与 Google Cloud 和 vLLM 合作。
@vllm_project: Rust 前端现已正式合并至 vLLM!随着 GPU 性能不断提升,前端已占据相当比例的 CPU 时间。…
vLLM 的 Rust 前端现已正式合并,可作为 Python API 服务器的直接替代方案,在预处理密集型工作负载上吞吐量提升高达 5 倍。
@charles_irl: 推理并非一切,但它确实需要一个新的技术栈——不是 Kubernetes,也不是 SLURM。在 @modal,我们深入探索构建…
Modal 工程师详细介绍了他们实现真正无服务器 GPU 用于 AI 推理的方法,结合了云缓冲区、自定义内容寻址文件系统以及 CPU/GPU 检查点/恢复,从而在几十秒内(而不是几分钟)扩展副本。
@yukangchen_: 我们很高兴分享一篇新的技术文章《KV缓存压缩及其基础设施问题》。https://research.nvidia.…
NVIDIA Research发布了一篇技术博客,探讨KV缓存压缩技术及其基础设施问题,包括FlashAttention和paged attention如何为长上下文LLM的生产部署带来实际障碍,并提出了一个使用RoPE的几何解决方案。
@GergelyOrosz: 好的,这是我刚刚了解到的 Google Cloud Run 的一个卓越特性 构建区域冗余需要大量工作… 当…
这篇文章突出了 Google Cloud Run 的一项简化区域冗余构建的功能,并指出很少有其他平台提供此功能。