serve-llm

标签

Cards List
#serve-llm

@seiji_________: 今天,我们激动地宣布,与 Google Cloud 的 GKE 团队(@googlecloud)合作,一项重大里程碑……

X AI KOLs Following · 昨天 缓存

Ray Serve LLM 在 Ray 2.56 中,对预填充密集型工作负载实现了高达 4 倍的吞吐量提升,对解码密集型工作负载实现了 24 倍的提升,在生产基准测试中与基于 Rust 的路由框架(如 vllm-router)性能相当,这是与 Google Cloud GKE 团队合作宣布的。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈