clinical-benchmark

#clinical-benchmark

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

arXiv cs.CL ↗ · 2026-04-20 缓存

MEDSYN 是一个多语言多模态基准，用于评估多模态大语言模型（MLLMs）在复杂临床病例上的表现，每个病例最多包含 7 种不同的视觉证据类型。研究表明，虽然前沿模型在鉴别诊断生成方面与人类专家相当，但所有 MLLMs 在最终诊断选择中均存在显著差距，原因是异质临床证据综合能力不足。

0 人收藏 0 人点赞