OpenMedQ：面向医学视觉语言模型的广泛开放预训练

arXiv cs.AI 2026/06/12 04:00 论文

medical-vlm open-source pretraining vision-language vqa classification llava

摘要

OpenMedQ 是一个完全开放的医学视觉语言模型，在 14 个数据集（约 335 万样本）上进行预训练，在医学 VQA 和分类基准上取得了最先进的结果。

arXiv:2606.12953v1 公告类型：新摘要：我们提出 OpenMedQ，一个在迄今最广泛的完全开放医学混合数据集上预训练的医学视觉语言模型：14 个数据集总计约 335 万预训练样本，涵盖病理学、放射学、显微镜和纯文本临床 QA。OpenMedQ 在 PathVQA 上达到了最先进的 BLEU-1（75.9），击败了参数高达 562B（约大 80 倍）的 Med-PaLM M 变体，并与已报道的最佳 VQA-MED BLEU-1（64.5）持平。其视觉编码器在相同的下游方案下迁移到 8 个未见医学分类基准，在 BiomedCLIP（0.745）、PMC-CLIP（0.745）、PubMedCLIP（0.746）和从头训练的基线（0.616）中获得了最高的平均宏 F1（0.757）。我们发布了代码，并提供了一个交互式演示，作为社区可复现的基线。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:54

# OpenMedQ：面向医学视觉-语言模型的广泛开放预训练
来源：https://arxiv.org/html/2606.12953
\\jmlrproceedings

MIDL医学成像与深度学习\\jmlrpages\\jmlryear2026\\jmlrworkshop短论文轨道\\jmlrvolume\\midlauthor\\NameIbrahim Gulluk\\midljointauthortext同等贡献\\nametag1\\Emailgulluk@stanford\.edu \\NameMax Van Puyvelde\\midlotherjointauthor\\nametag2,3\\Emailmaxvpuyv@stanford\.edu \\NameOlivier Gevaert\\nametag2\\Emailogevaert@stanford\.edu \\addr1斯坦福大学电气工程系 \\addr2斯坦福大学医学院生物医学数据科学系 \\addr3根特大学数学建模、统计与生物信息学系

###### 摘要

我们提出*OpenMedQ*，这是一个医学视觉-语言模型，基于迄今为止最广泛的完全开放医学混合数据集进行预训练：涵盖病理学、放射学、显微镜和纯文本临床问答的14个数据集，总计约3.35M个预训练样本。OpenMedQ在PathVQA上达到了最先进的BLEU-1分数（75.9），超过了参数规模高达562B（大约大80倍）的Med-PaLM M变体，并在VQA-MED上追平了最佳报告BLEU-1（64.5）。其视觉编码器在相同的下游方案下迁移到8个未见过的医学分类基准上，取得了最高的平均宏F1分数（0.757），优于BiomedCLIP（0.745）、PMC-CLIP（0.745）、PubMedCLIP（0.746）和从头训练的基线（0.616）。我们将发布代码（https://github.com/gevaertlab/OpenMedQ），并且一个交互式演示已公开可用，作为社区可复现的基线。

###### 关键词:

医学视觉-语言模型，医学图像分类，开放科学

## 1 引言

医学基础模型的能力日益增强，然而大多数已发表的医学VLM仅依赖少数几个狭窄的预训练来源，并且要么不公开权重，要么不公开数据，或者两者都不公开。对比学习编码器如BiomedCLIP\(biomedclip\)、PMC-CLIP\(pmcclip\)和PubMedCLIP在单一的图像-字幕语料库上训练；生成式医学VLM如PMC-VQA\(pmcvqa\)和LLaVA-Med\(llavamed\)在几个基准上展示了强大的视觉问答能力，但使用的预训练组合相对狭窄，而BiomedGPT\(biomedgpt\)和Med-PaLM M\(medpalm\)则扩展了数据和参数规模，但未公开权重。这使得从业者无法获得一个完全开放、广泛预训练的基线，以便真正进行检查、复用和扩展。

我们提出*OpenMedQ*，这是一个LLaVA风格\(llava\)的VLM（ViT-base\(biomedclip\) + LLaMA-7B\(llama;pmcllama\)，LoRA\(lora\)），基于迄今最广泛的开放医学预训练组合（14个数据集，约3.35M样本）进行训练，采用下一个token预测。我们将在论文被接收后公开权重和数据集配方；一个实时交互式演示已可在https://openmedq.streamlit.app/ 获取，用于定性检查。

## 2 方法

### 架构与预训练。

视觉编码器f\_vis 是一个ViT-base-patch16-224，从BiomedCLIP\(biomedclip\)初始化；一个线性投影将其图像token送入一个从PMC-LLaMA\(pmcllama\)初始化的LLaMA-7B\(llama\)语言模型。图像和文本token被拼接并按从左到右解码，遵循LLaVA\(llava\)方法。我们使用秩r=8的LoRA\(lora\)进行微调，采用下一个token的交叉熵损失，并遮蔽图像和前缀token。所有图像被调整为224×224；训练使用AdamW优化器，批次大小64，学习率5×10⁻⁵，在单个NVIDIA A100上最多进行15个epoch。

### 分类迁移。

为了探究预训练产生的视觉特征，我们分离出f\_vis并附加一个线性头W∈R²ᵈ×ᵐ；编码器和线性头一起在每一下游数据集上微调100个epoch。我们将OpenMedQ的编码器与三个强大的医学对比学习基线（BiomedCLIP、PMC-CLIP、PubMedCLIP）以及一个从头训练的基线进行对比，所有方法均采用相同的下游方案，以确保任何性能差异归因于预训练。

## 3 数据集

### 预训练数据组合（14个数据集，约3.35M样本）。

图像-文本来源（约2.94M对）涵盖病理学（PathVQA\(pathvqa\)）、放射学（VQA-RAD\(vqarad\)、IU-XRAY\(iuxray\)、MIMIC-CXR\(mimiccxr\)、ROCO\(roco\)、OmniMedVQA\(omnimedvqa\)）、混合模态（Slake\(slake\)、PMC-OA\(pmcclip\)、PMC-VQA\(pmcvqa\)、VQA-MED\(vqamed\)）和显微镜（μ-Bench\(ubench\)）。另外约410K个纯文本临床问答样本（MedQA、MedMCQA、PubMedQA）被纳入，以在预训练期间保留语言能力。

### 分类基准（8个数据集）。

我们在CXR8\(cxr8\)、MedFMC\(medfmc\)（胸部、结肠、内窥镜子任务）、Breast-Ultrasound\(breastus\)、CHAOYANG\(chaoyang\)、CBIS-DDSM\(cbisddsm\)和Mendeley-CXray\(mendeley\)上进行评估。这些数据集在预训练期间未被见过。

## 4 结果

\\floatconts

fig:hero参考标题

图1：(a) 在8个未见过的医学分类基准上的宏F1分数：所有柱状图共享相同的下游方案，唯一区别在于预训练的视觉编码器。OpenMedQ取得了最高的平均分数（0.757）。(b) OpenMedQ的预训练数据组合：14个完全开放的数据集（约3.35M对），按模态组着色。

### 分类迁移。

\\figureref

fig:hero(a) 是我们的主要结果。OpenMedQ在八个基准上取得了最高的平均宏F1分数（0.757），领先于PubMedCLIP（0.746）、PMC-CLIP和BiomedCLIP（0.745）以及从头训练的基线（0.616）。OpenMedQ在MedFMC-chest和MedFMC-endo上绝对胜出，在CXR8上与PMC-CLIP持平，并在另外四个基准上最多落后最佳编码器0.02；唯一的显著差距在Breast-Ultrasound（0.876对比0.915）。由于下游方案固定，这一差异反映了OpenMedQ的预训练在BiomedCLIP初始化基础上带来的提升。

### 开放式VQA。

在PathVQA上，OpenMedQ达到了75.9的BLEU-1分数，超过了前缀微调\(vansonsbeek\)（70.3）以及所有三个参数高达562B的Med-PaLM M变体\(medpalm\)（72.27），尽管OpenMedQ仅使用7B参数。在VQA-MED上，OpenMedQ达到了64.5，略高于2019年挑战赛的最佳成绩（64.4）。

## 5 讨论

开放预训练数据的*广度*是医学VLM的一个竞争杠杆：在7B参数规模下，OpenMedQ在PathVQA上创下了新的最先进水平，击败了参数高达562B的Med-PaLM M，其视觉编码器在平均分类迁移上优于三个强大的对比学习医学编码器。数据多样性是一个可复现的杠杆，而非专有规模。该杠杆有其局限性：Med-PaLM M的更大变体仍在VQA-RAD和Slake上领先，BLEU-1仅捕捉表面一致性，而窄模态编码器可能在Breast-Ultrasound上略胜我们。演示可在 https://openmedq.streamlit.app/ 获取。

## 参考文献

OpenMedQ：面向医学视觉语言模型的广泛开放预训练

相似文章

maziyarpanahi/openmed

基于视觉基础模型引导的注意力一致性纵向医学视觉问答

完全开放的 Meditron：用于临床 LLM 的可审计管道

MedGemma：我们最强大的开源健康AI开发模型

@AdinaYakup: @Open_MOSS 发布 MOSS-VL 视觉模型：https://huggingface.co/collections/OpenMOSS-Team/moss-vl… 演示：https://hug…

提交意见反馈