标签
ClinicalMC是一个基准,旨在评估大语言模型在多疗程临床决策中的表现,包含中文和英文数据集以及一个多智能体评估框架。
本研究考察了AI评分员(LLMs)在复杂2型糖尿病药物治疗中根据不同协议对临床AI输出进行评分的方式,发现基于评分标准的评分比无标准评分具有更强的区分能力。
EHRBench是一个自动化且可靠的基准测试,利用真实电子健康记录评估大语言模型在临床决策任务上的表现,涵盖诊断、治疗和预后任务,包含近100万个问答条目。