标签
Ray Serve LLM 通过直接流式传输、新的 vLLM V2 执行器后端和 HAProxy 入口,在预填充和解码密集型工作负载上实现了4.4倍和24.8倍的吞吐量提升,现已在 Ray 2.56 中推出,与 Google Cloud 和 vLLM 合作。
Anyscale 发布了一篇技术指南,介绍如何使用 Ray Serve、MCP 和 A2A 协议部署面向生产环境的 AI Agent。文章针对常见的底层基础设施瓶颈,提出了一种解耦的微服务架构,支持 LLM、工具与 Agent 的独立扩缩容。