标签
Yong Quan 强调,更好的推测解码器可以在 LLM 推理中实现近乎线性的吞吐量提升,该观点由 Charles 在 Modal 研讨会上提出。
Modal 宣布推出 Auto Endpoints,实现轻松推理,开发者 Anthony Corletti 称赞其为计算、存储和网络之上的一流抽象。
Modal推出了Auto Endpoints,这是一项自助服务,提供优化的、生产级的LLM推理,具备完整代码所有权、透明指标和自动缩放功能,构建于其无服务器GPU基础设施之上。
Modal宣布向所有用户开放托管的私有LLM端点,支持通过UI或CLI轻松部署,并且客户可以完全访问底层代码。
Modal 宣布推出 Auto Endpoints,这是一项可通过一键实现优化的开源 AI 推理的服务,旨在对抗专有模型和服务的趋势。
Modal 宣布推出 Auto Endpoints,这是一个用于拥有和部署 AI 推理的新功能。
Modal 讨论了管理沙箱系统整个生命周期的重要性,而不仅仅是初始启动,并强调了诸如 .wait_until_ready() 之类的工具。
Modal 解释了构建高性能沙箱系统的复杂性,超越了初始容器启动,并分享了生命周期管理工具。
LLM Engineer's Almanac 中的新页面提供了一个块量化可视化工具,帮助工程师理解量化格式,以便掌握自己的 LLM 推理。
周五,我们发布了六个用于加速推理的最新先进草稿模型,同时发布了一篇关于推测解码的博文,以及一个用于估算加速比的山脊线模型工具。
讨论了强化学习训练基础设施中沙盒启动延迟和扩展能力如何显著影响训练性能,引用了SemiAnalysis对匹配训练器和生成器吞吐量的详细分析。
DFlash,一个带有KV注入的块扩散起草器,现在正在前沿规模上运行,相比基线实现了高达4.3倍的吞吐量提升,集成了Modal和SGLang以用于Qwen 397B。
一位开发者使用Qwen3-VL-Embedding、FAISS、Modal和Cloudflare R2,在国家美术馆的68,000件艺术品上构建了多模态语义搜索系统。该系统热响应时间约1.3秒,冷启动约44秒,同时支持文本到图像和图像到图像的查询。
一个Modal教程,展示如何使用ESMFold2和ESMC模型扩展蛋白质绑定剂设计,包含用于迭代优化和自动伸缩基础设施的代码。
一条推文强调,前沿强化学习现在是一个基础设施问题,提到了开源 slime 库在 Modal 强化学习栈中的使用以及上游贡献。
用户对在 Modal 从事强化学习工作表示兴奋,并提及 Modal 发布了开源库以及在扩展强化学习训练中学到的经验。
Modal 在其平台上宣布了一个开源的强化学习库,通过可扩展的部署解决后训练强化学习中的基础设施挑战。
Modal 宣布对 Step 3.7 Flash 提供 Day 0 支持,该模型是一个 198B 参数的 MoE 模型,拥有 256K 上下文窗口和原生图像/视频理解能力。
Modal宣布为Step 3.7 Flash AI模型提供Day 0支持,该模型拥有198B参数的MoE(11B激活参数)、256K上下文、三个推理层级,以及原生图像和视频理解能力。