@robertnishihara:试试Ray 2.56!
摘要
Ray 2.56已发布,包含Ray Data的稳定性改进以及Ray Serve的重构,以提升LLM服务的性能。
试试Ray 2.56!
查看缓存全文
缓存时间: 2026/07/01 10:05
尝试 Ray 2.56!
ray (@raydistributed): 我们刚刚发布了 Ray 2.56!此版本包含:
- Ray Data 稳定性改进:减少对象存储溢出,自动批大小选择
- Ray Serve LLM 架构重构:将请求处理与 token 流式响应路径解耦,LLM 服务性能改进
相似文章
@raydistributed: 我们刚刚发布了 Ray 2.56!这包括 - Ray Data 稳定性改进:减少对象存储溢出,自动 ba…
Ray 2.56 已发布,改进了 Ray Data、面向 LLM 的 Ray Serve、GPU 域感知放置组以及 Kubernetes 集成。
@raydistributed: Ray Serve LLM 现在在预填充密集型工作负载上提供4.4倍的更高请求吞吐量,以及在解码密集型工作负载上提供24.8倍的更高请求吞吐量…
Ray Serve LLM 通过直接流式传输、新的 vLLM V2 执行器后端和 HAProxy 入口,在预填充和解码密集型工作负载上实现了4.4倍和24.8倍的吞吐量提升,现已在 Ray 2.56 中推出,与 Google Cloud 和 vLLM 合作。
@seiji_________: 今天,我们激动地宣布,与 Google Cloud 的 GKE 团队(@googlecloud)合作,一项重大里程碑……
Ray Serve LLM 在 Ray 2.56 中,对预填充密集型工作负载实现了高达 4 倍的吞吐量提升,对解码密集型工作负载实现了 24 倍的提升,在生产基准测试中与基于 Rust 的路由框架(如 vllm-router)性能相当,这是与 Google Cloud GKE 团队合作宣布的。
Raylib 6.0 发布
Raylib 6.0 作为一款轻量级、无依赖的 C 语言游戏开发库发布,支持多平台与多个 OpenGL 版本。
RaysUp:通过几何感知射线表示的超轻量通用特征上采样
RaysUp 是一个超轻量、任务无关的特征上采样框架,利用几何感知射线域技术从低分辨率VFM输出重建高分辨率特征,以比先前工作减少84%的参数和7倍更快的推理速度实现了最先进的性能。