标签
Ray 2.56已发布,包含Ray Data的稳定性改进以及Ray Serve的重构,以提升LLM服务的性能。
Ray 2.56 已发布,改进了 Ray Data、面向 LLM 的 Ray Serve、GPU 域感知放置组以及 Kubernetes 集成。
Robert Nishihara 强调了一篇关于解耦RL工作负载的论文,表明使用计算优化的H800进行预填充,带宽优化的H20进行解码,可以分别将rollout时间减少21-51%和47%,强调没有单一硬件类型适合所有阶段。
Ray Serve LLM 在 Ray 2.56 中,对预填充密集型工作负载实现了高达 4 倍的吞吐量提升,对解码密集型工作负载实现了 24 倍的提升,在生产基准测试中与基于 Rust 的路由框架(如 vllm-router)性能相当,这是与 Google Cloud GKE 团队合作宣布的。
这篇来自Anyscale的博客文章解释了LLM服务中Prefill-Decode(PD)分离的直觉,展示了如何将预填充和解码阶段分配到专用GPU上,在使用Ray和vLLM的AMD MI325X上实现高达2.7倍的有效吞吐量提升和67%的成本节省,同时也讨论了PD分离何时没有帮助。
Anyscale on Azure 现已公开预览。Daniel Arrizza 和 Paul Yu 将主持一场工作研讨会,探讨如何在 Azure 租户内构建和部署生产级 AI 工作负载,并与现有 Azure 服务集成。
微软 AI 发布了 MAI-Thinking-1,一个拥有 350 亿活跃参数/1 万亿总参数的 MoE 推理模型,在 STEM 和编码任务上具有竞争力,使用 Ray 进行分布式训练和编排。
Snowflake现在支持基于Ray的作业级批量推理,通过单一API调用即可在数百万非结构化数据点上执行分布式GPU,从而扩展模型推理。
Anyscale正在举办一场动手虚拟实验室课程,教授开发者如何使用Ray构建和扩展数据管道,涵盖视频数据筛选、分布式GPU推理以及CPU/GPU流式管道。
Anyscale 推出 Agent Skills,帮助编码 Agent 正确部署 Ray 工作负载,妥善处理 GPU 内存并使用最新 API。