ray-serve

标签

Cards List
#ray-serve

@raydistributed: Ray Serve LLM 现在在预填充密集型工作负载上提供4.4倍的更高请求吞吐量,以及在解码密集型工作负载上提供24.8倍的更高请求吞吐量…

X AI KOLs Following · 昨天 缓存

Ray Serve LLM 通过直接流式传输、新的 vLLM V2 执行器后端和 HAProxy 入口,在预填充和解码密集型工作负载上实现了4.4倍和24.8倍的吞吐量提升,现已在 Ray 2.56 中推出,与 Google Cloud 和 vLLM 合作。

0 人收藏 0 人点赞
#ray-serve

@anyscalecompute:大多数 Agent 框架解决了编排问题,却在基础设施方面完全未予解决。最新博文:面向生产的 AI…

X AI KOLs Following · 2026-05-07 缓存

Anyscale 发布了一篇技术指南,介绍如何使用 Ray Serve、MCP 和 A2A 协议部署面向生产环境的 AI Agent。文章针对常见的底层基础设施瓶颈,提出了一种解耦的微服务架构,支持 LLM、工具与 Agent 的独立扩缩容。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈