MedGemma:我们最强大的开源健康AI开发模型

Google DeepMind Blog 模型

摘要

Google DeepMind 发布了 MedGemma 27B Multimodal 和 MedSigLIP,扩充了其开源 Health AI Developer Foundations,加入了用于医学文本和影像任务的高性能、保护隐私的模型。

我们宣布在 MedGemma 系列中新增多模态模型,这是我们最强大的开源健康AI开发模型。
查看原文
查看缓存全文

缓存时间: 2026/05/08 09:47

# MedGemma:我们用于健康AI开发的最强大的开放模型 来源:https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/ 医疗保健领域正日益拥抱AI,以改善工作流程管理、患者沟通以及诊断和治疗支持。至关重要的是,这些基于AI的系统不仅要性能高,还要高效且保护隐私。正是基于这些考虑,我们构建并近期发布了Health AI Developer Foundations (http://goo.gle/hai-def) (HAI-DEF)。HAI-DEF 是一组轻量级开放模型,旨在为开发者提供稳健的起点,用于他们自己的健康研究和应用开发。由于 HAI-DEF 模型是开放的,开发者可以完全控制隐私、基础设施和模型修改。在今年5月 (https://research.google/blog/google-research-at-google-io-2025/),我们通过 MedGemma (https://deepmind.google/models/gemma/medgemma/) 扩展了 HAI-DEF 集合,MedGemma 是一组基于 Gemma 3 (https://deepmind.google/models/gemma/gemma-3/) 的生成式模型,旨在加速医疗保健和生命科学领域的 AI 开发。 今天,我们自豪地宣布该集合中的两个新模型。第一个是 MedGemma 27B 多模态模型,它通过增加对复杂多模态和纵向电子健康记录解读的支持,补充了之前发布的 4B 多模态和 27B 纯文本模型。第二个新模型是 MedSigLIP,一个用于分类、搜索及相关任务的轻量级图像和文本编码器。MedSigLIP 基于驱动 4B 和 27B MedGemma 模型的相同图像编码器。 MedGemma 和 MedSigLIP 是医学研究和产品开发的强有力起点。MedGemma 适用于需要生成自由文本的医学文本或图像任务,如报告生成或视觉问答。MedSigLIP 推荐用于涉及结构化输出(如分类或检索)的图像任务。上述所有模型都可以在单个 GPU 上运行,而 MedGemma 4B 和 MedSigLIP 甚至可通过调整在移动硬件上运行。 关于 MedGemma 和 MedSigLIP 开发与评估的完整详情,请参阅 MedGemma 技术报告 (https://arxiv.org/abs/2507.05201)。 ## MedGemma:面向健康的多模态生成模型 MedGemma 集合包括 4B 和 27B 参数的变体,两者现在都接受图像和文本输入,并产生文本输出。 - **MedGemma 4B 多模态**:MedGemma 4B 在 MedQA (https://arxiv.org/abs/2009.13081) 上得分为 64.4%,这使其成为最佳极小 (<8B) 开放模型之一。在一项非盲研究中,81% 的 MedGemma 4B 生成的胸部 X 光报告被美国委员会认证的放射科医生判断为足够准确,能够产生与原始放射科医生报告相似的患者管理结果。此外,它在医学图像分类任务上的性能与面向特定任务的最先进模型具有竞争力。 - **MedGemma 27B 文本** 和 **MedGemma 27B 多模态**:根据内部和已发表的评估,MedGemma 27B 模型是 MedQA 医学知识和推理基准上表现最佳的小型开放模型 (<50B) 之一;文本变体得分 87.7%,与领先的开放模型 DeepSeek R1 (https://github.com/deepseek-ai/DeepSeek-R1) 相差不到 3 个百分点,但推理成本约为其十分之一。MedGemma 27B 模型在各种基准测试上与大模型具有竞争力,包括电子健康记录数据的检索和解读。 我们通过训练一个医学优化的图像编码器(独立发布为 MedSigLIP,详见下文),然后使用医学数据对 Gemma 3 模型 (https://huggingface.co/docs/transformers/main/en/model_doc/gemma3) 的相应 4B 和 27B 版本进行训练,从而开发了这些模型。在整个过程中,我们注意保留了 Gemma 的通用(非医学)能力。这使得 MedGemma 能够在混合医学和非医学信息的任务上表现出色,并保留指令遵循以及非英语语言的能力。 这些模型的一个关键方面是它们的适应性。例如,经过微调后,MedGemma 4B 能够达到胸部 X 光报告生成的先进水平,RadGraph F1 (https://arxiv.org/abs/2106.14463) 得分为 30.3。开发者能够直接提升其在目标应用上的性能,这突显了 MedGemma 作为从事医疗 AI 构建的开发者的起点的价值。 ## MedSigLIP:面向医疗保健的专业图像编码器 MedSigLIP 是一个仅有 400M 参数的轻量级图像编码器,采用 Sigmoid 损失进行语言-图像预训练 (https://arxiv.org/abs/2303.15343) (SigLIP) 架构。MedSigLIP 通过使用多样化的医学成像数据(包括胸部 X 光、组织病理学 (https://en.wikipedia.org/wiki/Histopathology) 切片、皮肤病学图像和眼底图像 (https://en.wikipedia.org/wiki/Fundus_photography))对 SigLIP 进行调优而来,使模型能够学习这些模态特定的细微特征。重要的是,我们还注意确保 MedSigLIP 保持其对原始 SigLIP 模型训练所用自然图像的强大性能,从而保持其多功能性。 MedSigLIP 旨在通过将医学图像和医学文本编码到共同的嵌入空间来弥合它们之间的差距。MedSigLIP 在分类性能上与面向特定任务的视觉嵌入模型相当或更优,同时在医学成像领域适应性更强。 MedSigLIP 非常适合以下应用: - **传统图像分类**:构建高性能模型对医学图像进行分类。 - **零样本图像分类**:无需特定训练示例,通过比较图像嵌入与文本类别标签的嵌入来对图像进行分类。 - **语义图像检索**:从大型医学图像数据库中查找视觉或语义上相似的图像。 ## 开放模型的力量 由于 MedGemma 集合是开放的,模型可以被下载、构建和微调,以支持开发者的特定需求。尤其是在医学领域,这种开放方法相比基于 API 的模型提供了几个明显优势: - **灵活性与隐私**:模型可以在开发者偏好的环境(包括 Google Cloud Platform 或本地环境)中的专有硬件上运行,这可以解决隐私问题或满足机构政策。 - **定制化以实现高性能**:模型可以进行微调和修改,以在目标任务和数据集上达到最佳性能。 - **可重复性与稳定性**:由于模型以快照形式分发,其参数是冻结的,不像 API 那样会随时间发生意外变化。这种稳定性对于一致性和可重复性至关重要的医学应用尤为关键。 为确保广泛的可访问性和易用性,我们的 Hugging Face 集合 (https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4) 以流行的 Hugging Face safetensors (https://huggingface.co/docs/safetensors/en/index) 格式提供 MedSigLIP 和 MedGemma。 ## 开发者正在用 MedGemma 和 MedSigLIP 构建什么 研究人员和开发者一直在探索 MedGemma 模型用于其用例,并发现这些模型擅长解决一些关键问题。美国马萨诸塞州 DeepHealth (https://deephealth.com/) 的开发者一直在探索 MedSigLIP,以改进其胸部 X 光分诊和结节检测。台湾长庚纪念医院 (https://www.cgmh.org.tw/eng) 的研究人员注意到,MedGemma 在处理繁体中文医学文献时表现出色,并且能够很好地回应医务人员的提问。印度古尔冈 Tap Health (https://tap.health/) 的开发者称赞 MedGemma 卓越的医学基础,认为其在需要敏感处理临床上下文的任务(如总结病程记录或提出符合指南的提醒)中具有很高的可靠性。 我们很高兴继续了解这些以及其他来自开发者的用例,因为他们正使用 MedGemma 和 MedSigLIP 创建下一代健康 AI 工具。 ## 开始探索 为了帮助开发者入门,我们在 GitHub 上提供了详细的笔记,分别针对 MedGemma (https://github.com/google-health/medgemma) 和 MedSigLIP (https://github.com/google-health/medsiglip),演示如何在 Hugging Face 上创建用于推理和微调的 MedSigLIP 和 MedGemma 实例。当开发者准备扩展时,MedGemma 和 MedSigLIP 可以无缝部署到 Vertex AI (https://cloud.google.com/vertex-ai) 作为专用端点,我们在 GitHub 上提供了在这些端点上运行推理的示例。我们还在 HAI-DEF Hugging Face 演示集合 (https://huggingface.co/collections/google/hai-def-concept-apps-6837acfccce400abe6ec26c1) 中新增了一个演示 (https://huggingface.co/spaces/google/appoint-ready),展示如何将 MedGemma 构建到应用程序中,以在患者就诊前简化信息收集流程。 请参考下表,了解 MedGemma 系列中的哪个模型最适合您的用例。 请访问 HAI-DEF 网站 (https://goo.gle/hai-def) 获取这些资源,并了解更多关于 MedGemma 集合和其他 Health AI Developer Foundations 模型的信息。HAI-DEF 论坛 (https://discuss.ai.google.dev/c/hai-def/62) 可供提问或反馈。 ## 关于训练数据集的说明 模型均使用混合的公开和私有去标识化数据集进行训练。Google 及其合作伙伴使用经过严格匿名化或去标识化的数据集,以确保保护个体研究参与者和患者的隐私。 ## 免责声明 MedGemma 和 MedSigLIP 旨在作为起点,支持高效开发涉及医学文本和图像的下游医疗保健应用。MedGemma 和 MedSigLIP 未经开发者针对其特定用例进行适当验证、适配和/或有意义修改,则不应使用。这些模型生成的输出不旨在直接用于临床诊断、患者管理决策、治疗建议或任何其他直接临床实践应用。性能基准突出显示了相关基准上的基础能力,但即使对于构成训练数据主体的图像和文本领域,也可能产生不准确的模型输出。所有模型输出应视为初步结果,需要通过既定的研究和开发方法进行独立验证、临床相关性分析及进一步调查。 ## 致谢 *MedGemma 是 Google Research 与 Google DeepMind 合作的成果。我们感谢为这项工作做出贡献的许多人,包括 Google Health AI 和 Gemma 团队的工程及跨职能成员,以及 Google Research 和 Google DeepMind 的赞助方。*

相似文章

google/gemma-4-26B-A4B-it

Hugging Face Models Trending

Google DeepMind 发布 Gemma 4,一系列开放权重的多模态模型,参数量从2.3B到31B,支持文本、图像、视频和音频输入。模型具有256K上下文窗口,MoE和密集架构,增强的推理能力,并针对从移动设备到服务器的部署进行优化。

google/gemma-4-31B-it-assistant

Hugging Face Models Trending

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。