MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

arXiv cs.CL 2026/04/20 04:00 论文

multimodal-llm clinical-benchmark medical-ai diagnosis evidence-synthesis mllm-evaluation

摘要

MEDSYN 是一个多语言多模态基准，用于评估多模态大语言模型（MLLMs）在复杂临床病例上的表现，每个病例最多包含 7 种不同的视觉证据类型。研究表明，虽然前沿模型在鉴别诊断生成方面与人类专家相当，但所有 MLLMs 在最终诊断选择中均存在显著差距，原因是异质临床证据综合能力不足。

arXiv:2602.21950v3 公告类型：替换摘要：多模态大语言模型（MLLMs）在医疗应用中展现了巨大潜力，但现有基准未能充分反映现实世界的临床复杂性。我们推出 MEDSYN，这是一个多语言、多模态基准，包含高度复杂的临床病例，每个病例最多包含 7 种不同的视觉临床证据（CE）类型。遵循临床工作流程，我们在鉴别诊断（DDx）生成和最终诊断（FDx）选择方面评估了 18 个 MLLMs。虽然顶级模型在 DDx 生成方面常常与人类专家相当，甚至超越专家，但所有 MLLMs 在 DDx-FDx 性能差距上都远大于临床专家，表明在异质 CE 类型的综合方面存在失败模式。消融研究将这种失败归因于：(i) 过度依赖区分性较弱的文本 CE（例如病史）和 (ii) 跨模态 CE 利用差距。我们引入证据敏感性来量化后者，并表明较小的差距与更高的诊断准确率相关联。最后，我们展示了如何利用它来指导干预措施以改进模型性能。我们将开源我们的基准和代码。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:32

# MEDSYN: 复杂临床病例中多证据综合的基准测试——多模态大语言模型评估

来源：https://arxiv.org/html/2602.21950

Boqi Chen¹,²,²，Xudong Liu³,²，Jiachuan Peng²,⁴，Marianne Frey-Marti⁵，Kyle Lam⁶，Bang Zheng⁷，Lin Li⁴，Jianing Qiu²

¹ETH Zurich，²MBZUAI，³Amazon，⁴University of Oxford，⁵University of Bern，⁶Imperial College London，⁷Peking University

²同等贡献。通讯作者：[email protected]

###### 摘要

多模态大语言模型（MLLMs）在医学应用中表现出巨大潜力，但现有基准测试不足以反映真实世界的临床复杂性。我们介绍MEDSYN，这是一个多语言、多模态的复杂临床病例基准，每个病例包含多达7种不同类型的临床证据（CE），平均3.97种。镜像真实临床工作流程，我们在鉴别诊断（DDx）生成和最终诊断（FDx）选择两项任务上评估了18个MLLMs。虽然前沿模型在DDx生成上往往与人类专家相当甚至超过，但所有MLLMs的DDx-FDx性能差距都远大于专家医生，表明异质化CE综合存在失败模式。消融实验将此失败归因于：（i）过度依赖低区分性文本CE（如病史），以及（ii）跨模态CE利用差异。我们引入*证据敏感性*来量化后者，并证明较小的差异与更高的诊断准确性相关。最后，我们展示如何利用它来指导干预措施改进模型性能。

![[无标题图像]](https://arxiv.org/html/2602.21950v3/figures/MEDSYN.png)

MEDSYN: 复杂临床病例中多证据综合的基准测试——多模态大语言模型评估

Boqi Chen¹,²,²，Xudong Liu³,²，†，Jiachuan Peng²,⁴，Marianne Frey-Marti⁵，Kyle Lam⁶，Bang Zheng⁷，Lin Li⁴，Jianing Qiu²

¹ETH Zurich，²MBZUAI，³Amazon，⁴University of Oxford，⁵University of Bern，⁶Imperial College London，⁷Peking University

²同等贡献。通讯作者：[email protected]

## 1 引言

图1：(a) 医生在通过证据综合确定最终诊断（FDx）之前，先汇总一份广泛的鉴别诊断（DDx）列表。(b) 模型在DDx覆盖率和FDx准确性之间的差距远大于人类专家。

多模态大语言模型（MLLMs）在推进临床应用中展现出巨大潜力，但用于评估它们的基准测试仍然有限且碎片化。早期基准测试主要针对单一图像视觉问答（VQA），如基本物体识别。最近的努力转向更现实的设置，要求对多个图像进行整合推理，但仍存在几个局限。首先，尽管包含多个图像，但每个问题的图像来自同一临床证据（CE）类型，如断层扫描。在临床实践中，医生通常利用异质化的CE类型，包括实验室检查、多种模式的成像、显微镜图像，甚至组学数据。这对复杂临床病例（如多病共存）的准确诊断特别相关。虽然MedXpertQA MM包含多CE子集，但仅占基准的一小部分，平均每个病例2.74种CE类型。其次，大多数基准强调选择最终诊断（FDx）。但真实诊断工作流通常始于生成鉴别诊断（DDx），即与一种或多种CE类型的发现一致的一组可能条件集合，然后通过综合所有可用CE类型确定FDx。最后，大多数现有基准仅限英文，限制了MLLMs在临床环境中的多语言能力评估。

为解决这些局限，我们引入MEDSYN，一个多语言、多模态的复杂临床病例基准，其中每个问题平均包含3.97种CE类型和8.42张图像，来自多达7种不同CE类型。镜像真实世界诊断工作流程，我们的基准在两项任务上评估模型：（i）DDx生成和（ii）FDx选择。我们对18个最先进的MLLMs进行基准测试，包括通用模型（专有和开源）和领域特定医学模型，开源规模从2B到78B参数不等。我们进一步使用两个医学MLLMs及其基础模型进行两项消融研究：（i）通过移除文本CE或用等长随机令牌字符串替换来扰动文本CE；以及（ii）进行留一法分析，其中保留每种CE类型，测量模型答案后验的结果更新，比较相同证据作为原始图像与专家衍生诊断发现的情况。

我们的主要发现总结如下：

- 1 我们表明领先模型在DDx生成上超过专家医生，但在FDx选择上表现不足，表明存在能力差距。这种差距因语言而异，突出了令人担忧的跨语言差异；

- 2 我们发现MLLMs过度依赖文本输入，将证据权重偏向低区分性CE（如病史）。移除此类证据增加了对图像令牌的关注，矛盾地改善了诊断准确性，尽管可用CE减少；

- 3 我们证明视觉理解仍是主要瓶颈：跨模态错配扭曲了MLLMs校准不同CE类型的方式，产生了*跨模态CE利用差异*。我们引入了一个新指标，称为*证据敏感性*，来量化这一差异，并证明更小的差异与更高的诊断准确性相关。我们进一步表明该指标为针对性干预改进模型性能提供了可行的指导。

## 2 相关工作

| 基准 | # 图像 | 多语言 | 平均每个病例的图像数 | 平均证据类型数 |
|------|--------|--------|----------------------|-----------------|
| VQA-Rad | 204 | ✗ | 1 | 1 |
| VQA-Med | 500 | ✗ | 1 | 1 |
| Slake | 96 | ✓ | 1 | 1 |
| PMC-VQA | 29k | ✗ | 1 | 1 |
| OmniMedVQA | 118k | ✗ | 1 | 1 |
| GMAI-MMBench | 21k | ✗ | 1 | 1 |
| MedXpertQA MM | 2.8k | ✗ | 2.1 | 2.74 |
| MEDSYN | 3.6k | ✓ | 8.42 | 3.97 |

表1：MEDSYN与现有多模态医学基准的比较。

##### 多模态大语言模型

通用MLLMs展现了在医学任务上的非凡零样本能力，包括诊断复杂临床病例，这得益于其LLM骨干网中编码的广泛临床知识。为进一步提高性能，最近的工作探索了通过在包含多种CE类型的专门医学数据上微调MLLMs来进行领域特定适配。尽管取得了这些进展，当前的MLLMs仍然容易出现幻觉和偏见，这妨碍了在真实临床环境中的安全部署。这些挑战突出了需要全面基准来评估模型在复杂现实诊断设置中的能力。

##### 多模态医学基准

现有医学基准未能反映真实世界的临床需求。早期基准主要针对放射学和病理学等狭隘领域的单一图像VQA。最近，提出了更通用的基准如PMC-VQA、OmniMedVQA和GMAI-MMBench来评估MLLMs在多种CE类型上的能力。例如，OmniMedVQA涵盖12种CE类型，包括多种成像模式（如CT、MRI、X光、超声）、显微镜和结肠镜等专科成像。然而，这些基准中的个别问题仍然是孤立的单图像快照，与单一CE类型绑定。虽然MedXpertQA MM引入了多图像、多CE VQA，但这仅占基准的一小部分，且每个问题的CE类型数量有限。最后，大多数基准仅限英文，限制了对MLLMs在临床环境中多语言能力的评估。详细比较见表1。

## 3 基准测试

图2：英文（上）和中文（下）最终诊断选择任务示例。颜色标记问题中引用的不同视觉临床证据（CE）类型，以及相应的专家衍生诊断发现；灰色表示文本CE。在我们的实验中，每种CE类型作为原始图像或文本发现输入，而不是两者。

### 3.1 数据收集和预处理

##### 数据收集

我们从2015年11月至2025年10月期间出版的《新英格兰医学杂志病例记录》系列中收集连续英文病例，以及发表在《中华医学杂志》中的中文病例报告。对于每个病例，我们提取背景和初始讨论直至DDx，以及所有引用的表格和图。特别是，背景包含文本CE，如病史和体格检查发现。引用的表格和图包括来自诊断调查的视觉CE（即医生下达的客观技术检查），如实验室检查、诊断成像（如CT、MRI和X光）、显微镜和电生理测量（如脑电图）。最后，初始讨论呈现来自视觉CE的专家衍生诊断发现。地面真实（GT）FDx取自FDx部分，或如果没有明确说明，由医生根据完整报告确定。所有收集的病例都受到专家验证，如果（i）任何单个视觉CE在诊断上不可解读（如图像质量低、解剖覆盖不完整或伪影），或（ii）CE的完整集合在诊断上不充分（即医生无法从所有提供的证据确认FDx），则排除病例。验证后，我们总共获得452个病例（英文398个，中文54个）。

##### 数据预处理

对于每个病例，我们手动按CE类型对图像进行裁剪和标记。对于来自不同时间点的相同证据，我们添加获取时间的额外参考。图像标题被添加到讨论中，我们采用GPT-5通过上下文学习从中提取和组织基于CE类型的专家衍生诊断发现。这建立了视觉CE到文本解释的一一对应。由于单一CE可能由多个医生审查，我们利用GPT-5将个别解释总结为单一、连贯的摘要以减少冗余。模板提示和处理数据示例在附录A.2中。最后，我们通过将处理后的数据与原始报告交叉参考进行手动质量检查以确保完整性并减少幻觉，并由医生进一步验证随机选择的20%子集。

图3：(a) 视觉临床证据（CE）类型的分布。(b) 每个病例中的视觉CE类型数量。

### 3.2 基准设计

为镜像真实临床工作流，我们设计两项不同的任务：（i）DDx生成，涉及信息收集和假设生成，以及（ii）FDx选择，需要证据综合和诊断验证。

##### DDx生成

DDx生成是一项开放式生成任务，其中MLLMs被要求提供从最可能到最不可能诊断的排序鉴别列表。

##### FDx选择

对于FDx选择，我们构建了闭式多选题（MCQ），其中单一正确答案是GT FDx，干扰项从模型生成的DDx中提取。我们采用GPT-5生成鉴别列表，然后根据两项标准选择干扰项：（i）干扰项必须排除FDx及其任何同义词或措辞变体；（ii）干扰项应在临床上接近FDx（如密切相关的组织学亚型）。我们应用了一个对抗性细化过程，迭代地识别和消除模型区分正确和不正确诊断的潜在捷径。最后，MCQ由专家医生根据内容效度和临床相关性进行审查，以确保区分性CE明确排除所有干扰项，从而消除选项间的诊断模糊性。图2说明了带有颜色编码CE类型的两个FDx选择任务示例。每个视觉CE与来自它的诊断发现的专家衍生摘要配对。推理期间，给定的CE类型作为视觉或文本输入提供，而不是两者。DDx生成任务的示例如图8在附录A.3中所示。

##### 指标

对于DDx生成，我们遵循Kanjee等人的评估框架，使用GPT-5作为自动评判者在0-5量表上对生成的DDx进行评分。我们报告覆盖率，定义为DDx包含FDx的病例百分比，基于医生建议将分数≥4（即DDx包含确切的FDx或高度同义条件）视为正面覆盖。对于FDx选择，我们报告总体准确性。

## 4 实验

### 4.1 评估

我们评估了多样化的MLLMs集合。专有模型包括代表性的GPT、Gemini和Claude 4.5 Opus。开源模型跨越2B-72B参数，涵盖广泛使用的Qwen、InternVL和DeepSeek-VL等系列。我们还包括了三个医学MLLMs：HuatuoGPT、Lingshu和Med-Mantis。评估使用VLMEvalKit框架在8个NVIDIA A6000 GPU上进行。我们在零样本设置下评估所有模型。我们还招募了两名高级医生来评估基准的英文子集。

### 4.2 主要结果

| 类型 | 模型 | 英文 | | 中文 | | 总体 | |
|------|------|------|---|------|---|------|---|
| | | DDx覆盖率(%) | | FDx选择准确率(%) | DDx覆盖率(%) | | FDx选择准确率(%) | DDx覆盖率(%) | | FDx选择准确率(%) |
| 专家 | 高级医生 | 77.13 | | 72.11 | - | | - | - | | - |
| 专有 | | | | | | | | | | |

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

相似文章

ClinicalMC：面向大语言模型的多疗程临床决策基准

在标准化病例中评估大语言模型在动态临床决策中的表现

多视角证据合成与推理的无监督多模态实体链接

一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架

MedicalBench：评估大型语言模型以改进医学概念提取

提交意见反馈