serve-llm

#serve-llm

@seiji_________: 今天，我们激动地宣布，与 Google Cloud 的 GKE 团队（@googlecloud）合作，一项重大里程碑……

X AI KOLs Following ↗ · 昨天缓存

Ray Serve LLM 在 Ray 2.56 中，对预填充密集型工作负载实现了高达 4 倍的吞吐量提升，对解码密集型工作负载实现了 24 倍的提升，在生产基准测试中与基于 Rust 的路由框架（如 vllm-router）性能相当，这是与 Google Cloud GKE 团队合作宣布的。

0 人收藏 0 人点赞