@charles_irl: Modal Servers 的响应速度比经典 Modal Web Functions 快 6 倍。我们已经用它们来支持全球推理服务…
摘要
Modal 推出 Modal Servers,承诺比经典 Web Functions 快 6 倍的响应速度,并分享了其新 Auto Endpoints 功能背后的架构技术细节。
查看缓存全文
缓存时间: 2026/06/26 04:06
Modal Servers 的响应速度比经典 Modal Web Functions 快 6 倍。我们已将其用于支持全球范围内的推理服务,并实现了世界级的延迟。
非常兴奋终于可以分享它们的工作原理——尤其是因为从这个项目中,我个人在网络方面学到了很多!https://t.co/4Qj13edVKM
Modal (@modal): 我们的新 Auto Endpoints 功能由一个新的 Modal 原语——Modal Servers——驱动。
在这篇博文中,我们将介绍设计原则和详细架构:@EnvoyProxy、@googlecloud Spanner 配置存储,以及基于 @Cloudflare Pingora 的自定义代理。
相似文章
Modal Auto Endpoints:你掌控的优化推理
Modal推出了Auto Endpoints,这是一项自助服务,提供优化的、生产级的LLM推理,具备完整代码所有权、透明指标和自动缩放功能,构建于其无服务器GPU基础设施之上。
@charles_irl: GLM 5.2 runs pretty fast on Modal.
GLM 5.2 在 Modal 云平台上展现出快速的性能表现。
@modal: @vllm_project 和 @sgl_project 服务器在 Modal 上的新副本启动速度提升 3-10 倍。阅读文章了解具体实现方式 ——…
Modal 宣布,通过优化 GPU 健康管理和 CUDA 上下文检查点机制,vLLM 和 SGLang 服务器副本的启动速度提升了 3-10 倍。
@anthonycorletti:最好的开发者平台在计算、存储和网络之上创建抽象层,让即使是最复杂的工作负载也能无…
Modal 宣布推出 Auto Endpoints,实现轻松推理,开发者 Anthony Corletti 称赞其为计算、存储和网络之上的一流抽象。
@modal: https://x.com/modal/status/2066636221921521892
Modal 宣布了多项重大产品更新,包括支持真实 Linux 内核的 VM 沙箱、更低延迟的区域路由、沙箱的域名允许列表、基于角色的访问控制(RBAC)、命名镜像以及 SDK 更新。