标签
EHRBench是一个自动化且可靠的基准测试,利用真实电子健康记录评估大语言模型在临床决策任务上的表现,涵盖诊断、治疗和预后任务,包含近100万个问答条目。
这条推文强调了NIH科学家受到的不正常待遇,并附有图片来源。