clinical-benchmark

标签

Cards List
#clinical-benchmark

MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试

arXiv cs.CL · 2026-04-20 缓存

MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈