标签
MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。