@Modular: .@hippocraticai 运行超 400B 参数的模型,用于实时患者对话,每天处理数万次。当他们开始进行基准测试时…
摘要
Hippocratic AI 与 Modular 合作,使用 MAX 框架对大型语言模型进行推理,实现了低于 500 毫秒的平均 TTFT,P99 延迟提升约 30%,大规模下的平均延迟提升约 22%(在 NVIDIA B300 GPU 上),并且可移植到 AMD。
查看缓存全文
缓存时间: 2026/06/13 01:05
.@hippocraticai 运行超过4000亿参数的模型,每天处理数万次实时患者对话。当他们将MAX在NVIDIA B300上与现有技术栈进行基准测试时:平均TTFT低于500毫秒,P99延迟降低约30%,规模下平均延迟降低约22%,所有这些都使用Mojo原生内核,无需重建即可扩展到AMD:
Hippocratic AI 与 Modular 合作,为实时患者对话提供灵活、高质量的推理服务
来源:https://www.modular.com/blog/hippocratic-ai-partners-with-modular-to-power-flexible-high-quality-inference-for-real-time-patient-conversations?utm_source=x&utm_campaign=hippocratic 2026年5月18日
.png)
Modular 团队
问题
Hippocratic AI (https://hippocraticai.com/) 构建以安全为核心的AI健康助手,与患者对话,帮助弥补全球1500万医护人员的短缺。其Polaris系统并行协调数十个专业模型,确保每一次交互在临床上都安全可靠,错误率低于人类临床医生。Hippocratic AI 的系统可扩展到每天联系数万名患者,并建立起AI产品可在高度监管行业中使用的信任。
在实时语音场景中,每一毫秒都至关重要。在Hippocratic AI的规模下,延迟的改善直接转化为更好的患者体验和更高的单节点效率。生产部署跨越多个框架,包括SGLang和vLLM,同时持续评估新兴框架以获得更多延迟空间,硬件路线图涵盖NVIDIA、AMD及未来一代加速器。
解决方案
我们与Hippocratic AI的合作是一项联合努力,双方团队共同将Modular的MAX框架 (https://www.modular.com/open-source/max) 集成到Hippocratic AI的推理管线中,使用NVIDIA B300 GPU。评估将MAX与现有的SGLang部署在超过4000亿参数的模型上进行了基准测试,特别关注尾部延迟以及底层架构在未来异构硬件上的可移植性。
Modular从头重建了AI基础设施栈。从用Mojo编写的高度优化、可移植的内核,到使用MAX的模型服务基础设施,再到可在Modular云或您自己的云中部署的云编排。这种垂直整合的方法,经过多年深厚的基础设施投资,使Modular在性能上超越现有框架。
MAX在每个关键维度上都表现出色:
- 保持每一次对话即时响应。 MAX实现了低于500毫秒的平均首次令牌时间(TTFT),即使在高并发下也能保持生成时间紧凑,支持响应迅速、自然的交互。
- 消除破坏信任的延迟峰值。 在医疗健康领域,最差情况下的交互与平均情况同样重要。在对一个关键密集生产模型的评估中,MAX实现了P99端到端延迟提升约30%,解决了导致对话中明显停顿的尾部延迟峰值。
- 每个节点服务更多患者。 对于特定工作负载,MAX在规模下实现了约22%更快的平均端到端延迟,助力Hippocratic AI实现其整个生产栈中每节点效率的提升。
结果
通过将MAX加入其推理栈,Hippocratic AI开启了跨供应商硬件的异构部署策略。Hippocratic AI与Modular的合作仍在继续。由于MAX的可移植性来自其优化的内核库和调度架构,而非供应商特定的胶水代码,同样的优势也延伸到了正成为生产AI部署核心的大型推理模型:为生产中使用的先进LLM提供灵活、硬件无关的部署。
| 指标 | 结果 |
|---|---|
| 首次令牌时间(TTFT) | 平均低于500毫秒 |
| 端到端延迟 - P99 | 提升30% |
| 端到端延迟 - 平均值 | 提升约22% |
关于Hippocratic AI
Hippocratic AI开发了用于医疗健康的最安全的生成式AI助手。该公司相信生成式AI有能力为世界上每个人带来医疗健康富足。公司专注于构建面向患者、非诊断性的临床AI助手,不允许其助手用于开处方或诊断。Hippocratic AI已获得总计4.04亿美元融资,由领先投资者支持,包括Andreessen Horowitz、General Catalyst、Kleiner Perkins、Avenir、NVIDIA的NVentures、Premji Invest、SV Angel、Google的CapitalG以及众多医疗系统。了解更多信息请访问https://cts.businesswire.com/ct/CT?id=smartlink&url=https%3A%2F%2Fhippocraticai.com%2F&esheet=54391704&newsitemid=20260108049774&lan=en-US&anchor=https%3A%2F%2Fhippocraticai.com%2F&index=2&md5=a2bcfd14f02b399e104d14f2ea9d985b。
申请演示此用例
如果您正在为推理部署大语言模型,请立即申请演示 (https://www.modular.com/request-demo?utm_campaign=casestudies&utm_source=blog_hippocratic)。期待与您交流!
了解Modular能为您做什么
申请演示 (https://www.modular.com/request-demo?utm_source=blogfooter)
- 金发人士在使用带有Apple标志的笔记本电脑。 立即注册 立即注册我们的云平台,轻松开始使用。 注册 (https://docs.modular.com/max/get-started) https://docs.modular.com/max/get-started
- 放大镜表情符号,黑色手柄和圆形透明镜片。 浏览开放模型 浏览我们的模型目录,或部署您自己的自定义模型 浏览模型 (https://www.modular.com/models) https://www.modular.com/models
订阅我们的新闻通讯
将所有最新新闻、公告和更新直接发送到您的收件箱。随时可取消订阅。
感谢您订阅我们的新闻通讯!🚀
谢谢,
Modular销售团队
哎呀!提交表单时出错了。
相似文章
@Modular:我们的内核团队整周都在深入研究 MiniMax M3。百万token上下文和原生多模态让它的服务模式变得困难……
Modular 的内核团队正在优化对 MiniMax M3 的百万token上下文和原生多模态的服务,开放权重即将发布,可立即在 Modular 上部署。
@rohanpaul_ai: Thinking Machines 正在用始终在线的 AI 取代轮次交互式的 AI。他们刚刚发布了 TML-Interaction-Small,一个 276B 参数的 MoE 模型……
Thinking Machines 发布了 TML-Interaction-Small,这是一个 276B 参数的 MoE 模型,专为实时、始终在线的交互设计,延迟低于 0.4 秒,并集成了多模态处理能力。
@HotAisle: 太棒了。我想知道他们用的是谁的 MI300x... ;-)
Kog 宣布在标准数据中心 GPU 上实现每请求每秒 3000+ 输出令牌的实时大语言模型推理,将此前仅限于定制芯片的高速推理引入生产硬件。
@rohanpaul_ai: 就在几天前,Thinking Machines Lab (TML) 展示了一种让 AI 交互从轮次式变为连续式的新方法…
Thinking Machines Lab 和 OpenBMB 发布了 MiniCPM-o 4.5,这是一个 9B 参数的全双工全模态模型,采用 Omni-Flow 框架,支持连续、时间对齐的实时视频和语音交互,超越了之前的模型,并以开源形式提供。
@sudoingX:这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型,持续 15 tok/s,22.8 o…
一台笔记本借助 Hermes agent 本地运行 31B 模型,速度 15 tok/s,显存占用 22.8 GB,功耗 94 W,实现完全自主、私密、无需云端的 AI 推理。