ClinicalMC:面向大语言模型的多疗程临床决策基准
摘要
ClinicalMC是一个基准,旨在评估大语言模型在多疗程临床决策中的表现,包含中文和英文数据集以及一个多智能体评估框架。
arXiv:2606.03157v1 Announce Type: new
摘要:大语言模型(LLMs)已在医疗领域广泛采用,但在复杂的临床决策场景中仍面临重大挑战。现有基准主要评估LLM在单疗程设置中的表现,缺乏对多疗程场景的系统评估——在后者中,患者的病情会随时间演变。为弥补这一空白,我们提出了ClinicalMC,一个面向多疗程临床决策的基准。它包含从入院到出院的四个阶段的1275个中文样本和5804个英文样本。这些阶段涵盖分诊、首程检查/诊断/治疗、后续多疗程检查/评估/治疗以及最终诊断。在ClinicalMC中,英文数据集的患者平均经历5.11个临床疗程,而中文数据集的患者平均经历3.42个。为评估LLM性能,我们构建了一个多智能体评估框架,包含患者、审查员和医生智能体。基于该基准和框架,我们设计了两种实验设置——单轮静态设置和多轮动态设置——并评估了三类LLM:1) 闭源LLM(如GPT5-mini);2) 开源LLM(如DeepSeek-V3.2);以及3) 医学LLM(如HuatuoGPT-o1)。通过广泛评估,我们旨在更好地理解LLM在医疗领域的表现,并支持其在医疗中的有效部署。
查看缓存全文
缓存时间: 2026/06/03 09:43
# ClinicalMC:多疗程临床决策的大语言模型基准 来源:https://arxiv.org/html/2606.03157 侯瑞辉♢, 朱思怡♢, 淮子越♢, 于光亚♢, 范永琪♢, 王春明♣, 阮彤♢ ♢华东理工大学,上海,中国 ♣上海交通大学医学院附属仁济医院,上海,中国 ###### 摘要 大语言模型(LLMs)已在医疗领域广泛应用,但在复杂的临床决策场景中仍面临重大挑战。现有基准主要评估LLM在单疗程场景下的表现,缺乏对多疗程场景的系统评估——此类场景中患者的病情随时间演变。为填补这一空白,我们提出ClinicalMC,一个多疗程临床决策基准。它包含1275个中文样本和5804个英文样本,覆盖从入院到出院四个阶段。这些阶段包括分诊、首疗程检查/诊断/治疗、后续多疗程检查/评估/治疗以及最终诊断。在ClinicalMC中,英文数据集的患者平均经历5.11个疗程,中文数据集平均为3.42个。为评估LLM性能,我们构建了一个多智能体评估框架,包括患者、考官和医生智能体。基于该基准和框架,我们设计了两种实验设置——单轮静态设置和多轮动态设置——并评估了三类LLM:1) GPT5-mini等闭源LLM;2) DeepSeek-V3.2等开源LLM;3) HuatuoGPT-o1等医疗LLM。通过广泛评估,我们旨在更好地理解LLM在医疗领域的表现,并支持其在医疗中的有效部署。¹ --- # 1 引言 大语言模型(LLMs)在多种医学自然语言处理任务中表现出色,包括信息抽取[Zhan et al. (2025)](https://arxiv.org/html/2606.03157#bib.bib47)、文本生成[Lin et al. (2023)](https://arxiv.org/html/2606.03157#bib.bib2)和问答[Jin et al. (2021)](https://arxiv.org/html/2606.03157#bib.bib29)。然而,在复杂的临床决策场景中,其可靠性仍然有限[Hager et al. (2024)](https://arxiv.org/html/2606.03157#bib.bib12),这要求持续整合异质数据(如生命体征、实验室结果)并在患者状况演变中进行实时推理[Sutton et al. (2020)](https://arxiv.org/html/2606.03157#bib.bib43)。这一局限性凸显了系统评估LLM在多疗程²临床决策中应用的必要性。  图1:实线框突出了我们的临床决策任务与以往基准的区别。“首疗程决策”和“日常疗程决策”各包含三个子任务,虚线框提供了详细描述。 表1:临床决策基准概览。“Dept.”代表科室,“CAS.”代表评估任务,“A2D.”代表从入院到出院过程,“Multi-C.”代表多疗程决策。“continuous assessment”表示患者状况是否被持续评估。 临床决策是一个多阶段、迭代的过程,通常跨越多个治疗疗程[Hager et al. (2024)](https://arxiv.org/html/2606.03157#bib.bib12)。入院时,临床医生首先根据患者的主诉症状确定最合适的科室。在首疗程中,他们收集相关临床信息并推荐必要的检查,以指导初步诊断和治疗决策。如果患者状况未改善,则在后续疗程中进行额外检查以重新评估临床状况并及时调整治疗方案。此迭代过程持续进行,直至患者状况稳定并达到出院标准。整体过程如图1所示。 已有多个面向临床决策的基准被提出,大致可分为基于考试和基于临床案例两类。基于考试的基准,如MedQA [Jin et al. (2021)](https://arxiv.org/html/2606.03157#bib.bib29)、MedMCQA [Pal et al. (2022)](https://arxiv.org/html/2606.03157#bib.bib30)、PubMedQA [Jin et al. (2019)](https://arxiv.org/html/2606.03157#bib.bib31)和MMLU [Hendrycks et al. (2021)](https://arxiv.org/html/2606.03157#bib.bib32),主要由从医学书籍和文献中抽取的问答对组成,旨在评估LLM的领域知识。然而,它们大多偏向理论知识,未能与实际的临床决策场景对齐。基于临床案例的基准,如Clinicallab [Yan et al. (2024)](https://arxiv.org/html/2606.03157#bib.bib11)、AI Hospital [Fan et al. (2025b)](https://arxiv.org/html/2606.03157#bib.bib14)和MedJourney [Wu et al. (2024)](https://arxiv.org/html/2606.03157#bib.bib17), 旨在模拟真实世界的临床场景。然而,它们通常聚焦于单疗程决策,仅涉及单轮诊断和治疗,忽略了当患者在多疗程中未改善时重新评估和调整治疗方案的关键过程。在本工作中,我们通过建模更能反映真实临床实践的多疗程决策场景来进一步填补这一空白。为便于比较,我们在表1中总结了我们的基准与最相关的临床基准之间的差异。 因此,在本文中,我们引入ClinicalMC,一个用于评估LLM多疗程临床决策能力的新颖基准。为构建该基准,我们收集了包含多次患者状况变化的临床记录,并在临床过程的每个关键决策点纳入状况评估任务。此外,我们设计了一个三轮标注工作流以确保高质量和一致性的标注。采用此方法,我们从MedEureka [Fan et al. (2025a)](https://arxiv.org/html/2606.03157#bib.bib42)和PMC-patients [Zhao et al. (2022)](https://arxiv.org/html/2606.03157#bib.bib1)构建了1275个中文样本(覆盖16个科室)和5804个英文样本(覆盖24个科室)。为便于在ClinicalMC上进行系统评估,我们开发了一个多智能体评估框架,包含患者智能体、考官智能体和医生智能体。患者智能体提供主诉症状。考官智能体提供检查结果的反馈。医生智能体基于患者不断变化的状况在工作流的每个阶段做出决策。利用该基准和框架,我们构建了两种实验设置——单轮静态设置和多轮动态设置——并对一系列医生智能体进行全面评估,包括闭源LLM(如GPT-4o-mini [Hurst et al. (2024)](https://arxiv.org/html/2606.03157#bib.bib9))、开源LLM(如DeepSeek-V3.2 [Liu et al. (2025a)](https://arxiv.org/html/2606.03157#bib.bib3))以及医疗LLM(如HuatuoGPT-o1 [Chen et al. (2023)](https://arxiv.org/html/2606.03157#bib.bib26))。 总结而言,我们的贡献包括: - •我们引入了一个新的多疗程临床决策基准ClinicalMC。该基准包含覆盖16个科室的1275个中文样本和覆盖24个科室的5804个英文样本。 - •ClinicalMC的主要特点是每个患者包含多个疗程,能够更真实地反映患者状况随时间演变的情况。在英文数据集中,患者平均有5.11个疗程;而在中文数据集中,平均为3.42个。 - •我们在ClinicalMC上评估了医疗LLM以及闭源和开源LLM,结果表明,经指令微调的HuatuoGPT-o1(7B)等先进医疗模型在中文和英文上的平均性能分别为43.40%和47.77%,远低于人类表现(85.00%和87.51%)。我们进一步提供了详细分析,并提出了未来研究方向。 --- # 2 问题形式化 在本工作中,我们评估从患者入院到出院的完整临床过程。每个临床任务可形式化定义为: **分诊(TR)**:该任务要求医生根据患者的主诉cc和基本信息bi,从候选科室集合ds中选择最合适的科室dp。形式化表示为:dp = TR(cc, bi, ds)。 **检查推荐(ER)**:该任务涉及基于患者的主诉cc、现病史ph1、既往史ph2和体格检查pe,预测必要的辅助检查ex。形式化表示为:ex = ER(cc, bi, ph1, ph2, pe, dp)。对于跨多个疗程的检查推荐,输入包括当前疗程患者的主诉以及所有先前的患者信息。可表示为:ex' = ER(emr, pc, cc', pe'),其中cc'、ex'和pe'分别表示当前疗程的主诉、检查推荐和体格检查。pc和emr分别表示前一疗程和患者的入院信息。 **临床诊断(CD)**:该任务要求医生根据患者的主诉、现病史、既往史、体格检查和辅助检查,确定患者的初步诊断pd、相应的诊断依据pb和鉴别诊断dd。形式化表示为:pd, pb, dd = CD(cc, bi, ph1, ph2, pe, dp, ex)。 **评估(AS)**:该任务要求医生根据当前疗程的主诉和体格检查评估患者的状况。评估可能涉及更新现有诊断或引入新诊断。形式化定义为:as' = AS(cc', pe', ex', emr),其中as'表示当前疗程的临床评估。 **治疗计划(TP)**:该任务涉及基于患者的主诉、现病史、既往史、体格检查、辅助检查、初步诊断、诊断依据和鉴别诊断,预测最优的治疗方案。形式化表示为:tp = TP(emr)。对于跨多个疗程的治疗计划,输入还包括当前疗程的数据。可表示为:tp' = TP(emr, cc', pe', ex', as')。 **最终诊断(FD)**:该任务要求医生根据整个临床轨迹确定最终诊断fd及其支持依据fb。形式化表示为:fd, fb = FD(emr, pn),其中pn = [pc1, pc2, ..., pcn]为n个疗程的序列。每个疗程pci (1 ≤ i ≤ n)包含主诉、体格检查、辅助检查、评估和治疗计划:pci = (cc', ex', pe', as', tp')。 --- # 3 ClinicalMC构建 在本节中,我们详细描述数据收集与处理、质量控制以及数据统计与分析。  图2:中文和英文数据集的科室分布。 ## 3.1 数据收集与处理 对于**中文数据**,我们使用来自MedEureka的电子健康记录(EHR)作为原始数据源。为获得严格匿名且高质量的EHR,我们分两个阶段处理数据。在第一阶段,我们使用正则表达式识别含个人信息的EHR(如姓名、电话号码),并用占位符(如“患者A”)或随机生成值替换敏感数据,得到6947份EHR。在第二阶段,我们进一步筛选数据,仅保留完整且高质量的EHR。首先,删除缺少关键信息(如主诉、诊断或治疗过程)的EHR,保留5106份EHR。然后,排除最终结果为死亡的EHR,保留4179份EHR。最后,通过细粒度的人口统计匹配(如性别和职业)消除重复记录。经过此阶段,我们获得3317份高质量EHR,每份包含多个治疗疗程。对于**英文数据**,我们使用来自PMC-Patients的167034份匿名病例报告作为原始数据源。为获得高质量的多疗程报告,我们进行三步筛选。首先,使用GPT-4o模型删除缺少多个疗程或包含不完整临床疗程的报告(如无改善或死亡),保留37357份报告。其次,删除缺失入院诊断和最终诊断等关键字段或标记为“未诊断”的报告,保留15572份报告。最后,排除非人类数据(如动物治疗报告)。经过严格筛选,最终保留6748份报告。此外,为确保符合伦理标准,来自一家三级甲等医院的三名临床医生对最终数据集进行了彻底的伦理审查,确认未违反任何伦理或道德准则。 表2:构建的数据集的统计数据。 ## 3.2 质量控制 为构建ClinicalMC,我们组建了一个专业标注团队,包括三名核查员和两名评审员。首先使用LLM从多疗程EHR中自动分割数据集。随后,三名经过临床培训的核查员进行初步验证,然后由两名高级临床医生进行双重审核。详细的标注工作流见附录A.1。经过严格的二阶段质量审查,我们获得1275份高质量中文EHR和5804份高质量英文EHR。为进一步确保数据完整性和临床相关性,我们执行了额外的质量控制程序,涉及三名临床经验超过十年且独立于标注评审员的高级临床医生。为此评估,我们从英文数据集中随机抽取3000例(占51.68%),从中文数据集中随机抽取1000例(占78.43%)。我们设计了一个标准化评分框架,
相似文章
MEDSYN: 复杂临床病例中多证据综合的多模态大语言模型基准测试
MEDSYN 是一个多语言多模态基准,用于评估多模态大语言模型(MLLMs)在复杂临床病例上的表现,每个病例最多包含 7 种不同的视觉证据类型。研究表明,虽然前沿模型在鉴别诊断生成方面与人类专家相当,但所有 MLLMs 在最终诊断选择中均存在显著差距,原因是异质临床证据综合能力不足。
MedGuideX:将可执行指南中的决策逻辑内化至大型语言模型用于临床推理
MedGuideX 将临床实践指南转化为可执行的决策逻辑,以生成事实性和反事实性的问答数据用于训练医学大语言模型,在临床推理基准测试中实现了平均准确率相对提升 10.28%。
MedAction:迈向主动式多轮临床诊断大语言模型
本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。
ChatHealthAI: 将电子健康记录表示与大型语言模型对齐以实现基于临床的推理
ChatHealthAI 是一个多模态推理框架,它将结构化 EHR 表示与冻结的 LLM 对齐,从而在保持预测性能的同时实现基于临床的推理。