ray-serve

#ray-serve

@raydistributed: Ray Serve LLM 现在在预填充密集型工作负载上提供4.4倍的更高请求吞吐量，以及在解码密集型工作负载上提供24.8倍的更高请求吞吐量…

X AI KOLs Following ↗ · 昨天缓存

Ray Serve LLM 通过直接流式传输、新的 vLLM V2 执行器后端和 HAProxy 入口，在预填充和解码密集型工作负载上实现了4.4倍和24.8倍的吞吐量提升，现已在 Ray 2.56 中推出，与 Google Cloud 和 vLLM 合作。

0 人收藏 0 人点赞

#ray-serve

X AI KOLs Following ↗ · 2026-05-07 缓存

Anyscale 发布了一篇技术指南，介绍如何使用 Ray Serve、MCP 和 A2A 协议部署面向生产环境的 AI Agent。文章针对常见的底层基础设施瓶颈，提出了一种解耦的微服务架构，支持 LLM、工具与 Agent 的独立扩缩容。

0 人收藏 0 人点赞