@Modular: .@hippocraticai 运行超 400B 参数的模型，用于实时患者对话，每天处理数万次。当他们开始进行基准测试时…

X AI KOLs Following 2026/06/11 17:19 产品

inference healthcare benchmark latency partnership nvidia-b300 mojo

摘要

Hippocratic AI 与 Modular 合作，使用 MAX 框架对大型语言模型进行推理，实现了低于 500 毫秒的平均 TTFT，P99 延迟提升约 30%，大规模下的平均延迟提升约 22%（在 NVIDIA B300 GPU 上），并且可移植到 AMD。

.@hippocraticai 运行超 400B 参数的模型，用于实时患者对话，每天处理数万次。当他们将 MAX 在 NVIDIA B300 上与现有技术栈进行基准测试时：平均 TTFT 低于 500 毫秒，P99 延迟提升约 30%，大规模下的平均延迟提升约 22%，全部使用 Mojo 原生内核，无需重新构建即可扩展到 AMD：

查看原文

查看缓存全文

缓存时间: 2026/06/13 01:05

.@hippocraticai 运行超过4000亿参数的模型，每天处理数万次实时患者对话。当他们将MAX在NVIDIA B300上与现有技术栈进行基准测试时：平均TTFT低于500毫秒，P99延迟降低约30%，规模下平均延迟降低约22%，所有这些都使用Mojo原生内核，无需重建即可扩展到AMD：

Hippocratic AI 与 Modular 合作，为实时患者对话提供灵活、高质量的推理服务

来源：https://www.modular.com/blog/hippocratic-ai-partners-with-modular-to-power-flexible-high-quality-inference-for-real-time-patient-conversations?utm_source=x&utm_campaign=hippocratic 2026年5月18日

.png)

Modular 团队

问题

Hippocratic AI (https://hippocraticai.com/) 构建以安全为核心的AI健康助手，与患者对话，帮助弥补全球1500万医护人员的短缺。其Polaris系统并行协调数十个专业模型，确保每一次交互在临床上都安全可靠，错误率低于人类临床医生。Hippocratic AI 的系统可扩展到每天联系数万名患者，并建立起AI产品可在高度监管行业中使用的信任。

在实时语音场景中，每一毫秒都至关重要。在Hippocratic AI的规模下，延迟的改善直接转化为更好的患者体验和更高的单节点效率。生产部署跨越多个框架，包括SGLang和vLLM，同时持续评估新兴框架以获得更多延迟空间，硬件路线图涵盖NVIDIA、AMD及未来一代加速器。

解决方案

我们与Hippocratic AI的合作是一项联合努力，双方团队共同将Modular的MAX框架 (https://www.modular.com/open-source/max) 集成到Hippocratic AI的推理管线中，使用NVIDIA B300 GPU。评估将MAX与现有的SGLang部署在超过4000亿参数的模型上进行了基准测试，特别关注尾部延迟以及底层架构在未来异构硬件上的可移植性。

Modular从头重建了AI基础设施栈。从用Mojo编写的高度优化、可移植的内核，到使用MAX的模型服务基础设施，再到可在Modular云或您自己的云中部署的云编排。这种垂直整合的方法，经过多年深厚的基础设施投资，使Modular在性能上超越现有框架。

MAX在每个关键维度上都表现出色：

保持每一次对话即时响应。 MAX实现了低于500毫秒的平均首次令牌时间（TTFT），即使在高并发下也能保持生成时间紧凑，支持响应迅速、自然的交互。
消除破坏信任的延迟峰值。 在医疗健康领域，最差情况下的交互与平均情况同样重要。在对一个关键密集生产模型的评估中，MAX实现了P99端到端延迟提升约30%，解决了导致对话中明显停顿的尾部延迟峰值。
每个节点服务更多患者。 对于特定工作负载，MAX在规模下实现了约22%更快的平均端到端延迟，助力Hippocratic AI实现其整个生产栈中每节点效率的提升。

结果

通过将MAX加入其推理栈，Hippocratic AI开启了跨供应商硬件的异构部署策略。Hippocratic AI与Modular的合作仍在继续。由于MAX的可移植性来自其优化的内核库和调度架构，而非供应商特定的胶水代码，同样的优势也延伸到了正成为生产AI部署核心的大型推理模型：为生产中使用的先进LLM提供灵活、硬件无关的部署。

指标	结果
首次令牌时间（TTFT）	平均低于500毫秒
端到端延迟 - P99	提升30%
端到端延迟 - 平均值	提升约22%

关于Hippocratic AI

Hippocratic AI开发了用于医疗健康的最安全的生成式AI助手。该公司相信生成式AI有能力为世界上每个人带来医疗健康富足。公司专注于构建面向患者、非诊断性的临床AI助手，不允许其助手用于开处方或诊断。Hippocratic AI已获得总计4.04亿美元融资，由领先投资者支持，包括Andreessen Horowitz、General Catalyst、Kleiner Perkins、Avenir、NVIDIA的NVentures、Premji Invest、SV Angel、Google的CapitalG以及众多医疗系统。了解更多信息请访问https://cts.businesswire.com/ct/CT?id=smartlink&url=https%3A%2F%2Fhippocraticai.com%2F&esheet=54391704&newsitemid=20260108049774&lan=en-US&anchor=https%3A%2F%2Fhippocraticai.com%2F&index=2&md5=a2bcfd14f02b399e104d14f2ea9d985b。

申请演示此用例

如果您正在为推理部署大语言模型，请立即申请演示 (https://www.modular.com/request-demo?utm_campaign=casestudies&utm_source=blog_hippocratic)。期待与您交流！

了解Modular能为您做什么

申请演示 (https://www.modular.com/request-demo?utm_source=blogfooter)

金发人士在使用带有Apple标志的笔记本电脑。立即注册立即注册我们的云平台，轻松开始使用。注册 (https://docs.modular.com/max/get-started) https://docs.modular.com/max/get-started
放大镜表情符号，黑色手柄和圆形透明镜片。浏览开放模型浏览我们的模型目录，或部署您自己的自定义模型浏览模型 (https://www.modular.com/models) https://www.modular.com/models

订阅我们的新闻通讯

将所有最新新闻、公告和更新直接发送到您的收件箱。随时可取消订阅。

感谢您订阅我们的新闻通讯！🚀

谢谢，

Modular销售团队

哎呀！提交表单时出错了。

@Modular: .@hippocraticai 运行超 400B 参数的模型，用于实时患者对话，每天处理数万次。当他们开始进行基准测试时…

Hippocratic AI 与 Modular 合作，为实时患者对话提供灵活、高质量的推理服务

问题

解决方案

结果

关于Hippocratic AI

申请演示此用例

订阅我们的新闻通讯

相似文章

@Modular：我们的内核团队整周都在深入研究 MiniMax M3。百万token上下文和原生多模态让它的服务模式变得困难……

@rohanpaul_ai: Thinking Machines 正在用始终在线的 AI 取代轮次交互式的 AI。他们刚刚发布了 TML-Interaction-Small，一个 276B 参数的 MoE 模型……

@HotAisle: 太棒了。我想知道他们用的是谁的 MI300x... ;-)

@rohanpaul_ai: 就在几天前，Thinking Machines Lab (TML) 展示了一种让 AI 交互从轮次式变为连续式的新方法…

@sudoingX：这台笔记本通过 Hermes agent 以 99% GPU 利用率本地跑 31B 模型，持续 15 tok/s，22.8 o…

提交意见反馈