EHRBench:用于大语言模型临床决策的自动化可靠电子健康记录基准
摘要
EHRBench是一个自动化且可靠的基准测试,利用真实电子健康记录评估大语言模型在临床决策任务上的表现,涵盖诊断、治疗和预后任务,包含近100万个问答条目。
arXiv:2605.30637v1 公告类型:新
摘要:临床决策(CDM)是实际临床工作流程的核心,临床医生在不完全证据的情况下推断诊断、选择治疗方案或预测未来健康结果。大语言模型因其强大的语言能力、广泛的生物医学知识和高效性,越来越多地被用于支持这些决策,然而大语言模型在实际临床决策任务中的可靠性仍未得到充分理解。为了评估临床决策模型,尤其是基于大语言模型的模型,一个理想且实用的医学决策基准应通过自动化且可靠的流程构建,以确保规模和质量。此外,基于真实患者电子健康记录的临床决策基准能更好地支持需要实质性生物医学知识和临床推理的实用临床决策任务的评估。为填补这些空白,我们提出EHRBench,一个自动化且可靠的、基于电子健康记录的基准测试,用于大规模评估基于大语言模型的临床决策。为确保可扩展性和可靠性,EHRBench通过电子健康记录-大语言模型-知识库交互流程构建。为提高效率,我们使用专门的大语言模型自动将就诊级别的电子健康记录轨迹转化为结构化模板,并确定性实例化模板为问答条目。同时,我们应用系统性的基于知识库的验证和扩充,以过滤幻觉或模糊关系并提高可靠性。利用这一流程,我们构建了近100万(960,067)个问答条目,涵盖三个核心需要推理的临床决策任务:诊断、治疗和预后。我们在EHRBench上对30多个代表性的大语言模型进行了基准测试,并提供了性能和鲁棒性的详细分析。结果显示了不同设置下一致的能力趋势,进一步验证了EHRBench的可靠性,并突出了实现临床可靠大语言模型系统方面的可操作差距。
查看缓存全文
缓存时间: 2026/06/01 09:24
# EHRBench:基于电子健康记录的自动化可靠临床决策LLM基准测试 来源:https://arxiv.org/html/2605.30637 \(2026\) ###### 摘要。 临床决策是真实临床工作流程的核心,临床医生在不完整证据下推断诊断、选择治疗方案或预测未来健康结果。LLM因其强大的语言能力、广泛的生物医学知识和高效性,越来越多地被用于支持这些决策,然而LLM在真实临床决策任务上的可靠性仍未被充分理解。为了评估临床决策模型,特别是基于LLM的模型,一个理想且实用的医学决策基准应通过自动化且可靠的流程构建,以确保规模和质量。此外,将临床决策基准扎根于真实患者EHR可以更好地支持需要实质性生物医学知识和临床推理的实际临床决策任务的评估。为填补这些空白,我们提出了EHRBench,一个自动化、可靠、基于EHR的大规模LLM临床决策评估基准。为确保可扩展性和可靠性,EHRBench通过EHR–LLM–知识库(KB)交互流程构建。为了提高效率,我们使用专门的LLM自动将就诊级别的EHR轨迹转换为结构化模板,并确定性地将模板实例化为问答项。同时,我们应用基于KB的系统性验证和增强,以过滤幻觉或模糊的关系,提高可靠性。通过这一流程,我们构建了近100万(960,067)个问答项,涵盖三个需要推理的核心临床决策任务:诊断、治疗和预后。我们在EHRBench上对30多个代表性LLM进行了基准测试,并提供了详细的性能和鲁棒性分析。结果显示在不同设置下能力趋势一致,进一步验证了EHRBench的可靠性,并指出了向临床可靠LLM系统迈进的可行差距¹¹¹EHRBench的源代码和数据指南可在GitHub链接https://github.com/constantjxyz/EHRBench获取。 大语言模型;电子健康记录;临床决策;医学问答;基准;知识库验证 ††期刊年份:2026 ††版权:cc ††会议:第32届ACM SIGKDD知识发现与数据挖掘会议V.2;2026年8月9–13日,韩国济州岛。 ††会议论文集:第32届ACM SIGKDD知识发现与数据挖掘会议V.2(KDD 2026),2026年8月9–13日,韩国济州岛 ††ISBN:979-8-4007-2259-2/2026/08 ††DOI:10.1145/3770855.3817571 ††CCS:应用计算 → 医疗保健信息系统 ††CCS:信息系统 → 数据挖掘 ††CCS:计算方法 → 自然语言处理 ††CCS:计算方法 → 人工智能 ## 1. 引言 临床决策是真实临床工作流程的基本组成部分,临床医生必须从不完整证据中推断诊断、确定治疗方案或预测未来临床状态(Subbiah, 2023 (https://arxiv.org/html/2605.30637#bib.bib1); Harish et al., 2021 (https://arxiv.org/html/2605.30637#bib.bib2); Masic, 2022 (https://arxiv.org/html/2605.30637#bib.bib3); Pelaccia et al., 2017 (https://arxiv.org/html/2605.30637#bib.bib4))。例如,给定一次就诊的已观察诊断,*就诊内诊断补全*决策需要推断共病情况,例如当2型糖尿病和糖尿病肾病同时存在时识别慢性肾病。类似地,*就诊内治疗方案选择*决策涉及选择合适的治疗,例如为房颤患者确定必要的抗凝治疗。此外,*下次就诊预后预测*决策需要预测后续就诊中可能的下游结果或诊断,例如预测高血压和高脂血症患者的缺血性卒中风险。这些决策直接影响患者护理和结果,对患者安全和健康具有重要的临床意义(Panagioti et al., 2019 (https://arxiv.org/html/2605.30637#bib.bib5); Vasey et al., 2021 (https://arxiv.org/html/2605.30637#bib.bib6))。 大语言模型(LLM)越来越多地被部署用于支持这些临床决策(Zhou and others, 2025 (https://arxiv.org/html/2605.30637#bib.bib9); Molin et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib10); Jia et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib11); Oniani et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib12); Xie et al., 2025a (https://arxiv.org/html/2605.30637#bib.bib13); Hunik et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib14)),这得益于它们强大的语言理解能力、预训练过程中获得的广泛生物医学知识,以及相对于传统手动工作流程的更高效率(Singhal et al., 2023 (https://arxiv.org/html/2605.30637#bib.bib7); Kumar et al., 2023 (https://arxiv.org/html/2605.30637#bib.bib8); Bhasuran et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib120); Lu et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib125); Wang et al., 2025a (https://arxiv.org/html/2605.30637#bib.bib132))。这一快速进展提出了一个核心问题:当证据反映患者特定的真实临床数据时,LLM在核心临床决策任务上的表现有多可靠?基准测试对于回答这一问题至关重要,因为它们能够实现可控、可重复的比较,并为更安全的临床决策系统开发提供指导。构建这些基准需要一个自动化且可靠的构建流程。历史上,许多医学问答资源通过大量领域专业知识和细致的人工策划实现了高质量(Malaviya et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib15); Singhal et al., 2023 (https://arxiv.org/html/2605.30637#bib.bib7); Zhou et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib18); Wornow et al., 2023 (https://arxiv.org/html/2605.30637#bib.bib19))。然而,人工工作的高成本通常将这些基准限制在少量患者记录上,这限制了评估的规模和多样性(Yan et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib16); Bosma et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib17))。由于临床决策本质上是复杂且多方面的,大规模基准对于全面评估至关重要,这反过来要求向自动化构建流程转变。 最近的研究探索了利用LLM本身在特定约束下生成问题来扩展基准创建(Long et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib20); Artsi et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib21); Sileo et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib22))。虽然这产生了大量数据,但由于LLM可能产生幻觉,也带来了质量隐患。因此,确保LLM生成的基准在临床上真实且无歧义,需要的不仅仅是格式约束;还需要系统性的验证(例如通过外部知识库)来减轻幻觉产生的临床关系和歧义答案(Huang et al., 2025a (https://arxiv.org/html/2605.30637#bib.bib23); Niu et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib24))。 除了构建自动化且可靠的流程,基准的数据源也很重要。将临床决策基准扎根于患者真实的电子健康记录(EHR)有助于对实际临床决策任务进行更真实的评估。目前,大多数现有的医学基准来源于结构良好的叙述性资源,如考试、教科书、临床指南和临床笔记(Jin et al., 2021 (https://arxiv.org/html/2605.30637#bib.bib26); Pal et al., 2022 (https://arxiv.org/html/2605.30637#bib.bib27); Liu et al., 2024a (https://arxiv.org/html/2605.30637#bib.bib32); Kweon et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib33); Mehandru et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib35); Liu et al., 2024b (https://arxiv.org/html/2605.30637#bib.bib36); Kim et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib37); Dada et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib28); Zhang et al., 2025a (https://arxiv.org/html/2605.30637#bib.bib34); Zuo et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib30); Wang et al., 2025b (https://arxiv.org/html/2605.30637#bib.bib31))。这些来源通常使临床推理变得明确——例如,直接陈述诊断或治疗的理由——从而减少了推理的需要。相比之下,临床医生通常对纵向EHR进行推理,其中的临床逻辑并非预先消化好的,而必须从结构化事件的模式中推断出来。与强调理想化和广泛适用知识的一般医学资源不同,EHR大规模捕获个性化、纵向、真实的临床事件和护理模式(Knevel and Liao, 2023 (https://arxiv.org/html/2605.30637#bib.bib38); Xie et al., 2026 (https://arxiv.org/html/2605.30637#bib.bib128); Zhang et al., 2025b (https://arxiv.org/html/2605.30637#bib.bib133))。此外,与自由文本临床笔记相比(这些笔记整理成本高,通常关注有限数量的显著细节),EHR的结构化表格部分数据量更大,覆盖更广泛的临床概念,并反映真实世界实践中更大的变异性(Kim et al., 2023 (https://arxiv.org/html/2605.30637#bib.bib39))。尽管有这些潜力,直接利用原始结构化EHR构建基准仍然具有挑战性。EHR中的临床关系大部分是隐式的,必须从时间顺序的事件中推断,而编码系统之间的碎片化使得在不引入伪影或标签泄漏的情况下,忠实地转换为自然语言提示变得复杂(Wu et al., 2025b (https://arxiv.org/html/2605.30637#bib.bib130); Xie et al., 2024a (https://arxiv.org/html/2605.30637#bib.bib118))。此外,EHR轨迹通常非常长,这使得在保留数据保真度的同时将原始记录转换为LLM可用的输入变得困难(Zhang et al., 2024b (https://arxiv.org/html/2605.30637#bib.bib119); Shao et al., 2026 (https://arxiv.org/html/2605.30637#bib.bib131))。因此,现有的基于EHR的基准通常强调阅读理解或信息检索任务(例如,“患者在这次就诊中接受了什么治疗”(Lee et al., 2022 (https://arxiv.org/html/2605.30637#bib.bib42); Xu et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib41))),而不是需要实质性生物医学知识和临床推理的核心临床决策任务,例如根据诊断决定应该开什么药。 见图说明 图1. EHRBench概览。EHRBench通过EHR-LLM-KB交互流程自动且可靠地将原始结构化EHR轨迹转换为问答基准,并在三个核心临床决策任务(诊断、治疗和预后)上评估代表性LLM。 为弥合这些差距,我们引入了EHRBench,一个自动化、可靠、基于真实世界电子健康记录(EHR)的基准测试,用于评估LLM的临床决策能力。如图1(https://arxiv.org/html/2605.30637#S1.F1)所示,我们的框架通过一个多阶段流程系统地将原始结构化EHR轨迹转换为大规模且高质量的基准,该流程整合了EHR数据、LLM和外部生物医学知识库(KB)。具体来说,我们使用LLM从EHR轨迹生成问题模板(包括临床关系、问题和答案),同时使用外部KB并行验证(对于临床关系)和增强(通过实体定义和检索证据)以确保临床可靠性。这些生成的模板被确定性地实例化为多种类型的问答项以确保多样性。利用EHRBench,我们评估了在三个需要实质性生物医学知识和临床推理的核心临床决策任务上的代表性LLM,涵盖就诊内诊断补全(诊断)、就诊内治疗方案选择(治疗)和下次就诊结果预测(预后)。我们进一步分析了模型在准确性、效率和鲁棒性方面的表现。我们的贡献总结如下: - • 我们构建了EHRBench,一个大规模、基于EHR的问答基准,用于评估LLM的临床决策能力,包含近100万个问答项(960,067个)。据我们所知,EHRBench是第一个直接从原始结构化EHR轨迹构建的基准,它利用LLM进行问题模板生成,同时实施系统验证以确保临床可靠性。 - • 我们提出了一种基于EHR-LLM-KB交互的自动化且可靠的基准构建框架,其中LLM实现了可扩展的模板生成,知识库提供了有原则的验证和增强,而EHR轨迹提供了真实的纵向临床证据。 - • 我们将临床决策制定为对部分观察的EHR数据的条件推断,并设计了三个代表性任务:诊断补全、治疗方案选择和下次就诊预后,这些任务需要实质性的生物医学知识和对隐式临床关系和纵向患者轨迹的临床推理。 - • 我们系统地对30多个代表性LLM在EHRBench上进行了基准测试,并对其准确性、效率和鲁棒性进行了全面分析,为开发和评估临床可靠的LLM系统提供了可行见解。 ## 2. 相关工作 医学问答基准。医学问答基准对于衡量临床决策支持模型(包括LLM)的生物医学知识和推理能力至关重要(Xiao et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib100))。大量工作通过专家策划或精心设计的评估协议构建高质量问答资源。这些方法通常提高正确性并减少歧义,但由于标注成本和领域专业知识的需求,通常限制数据集规模,包括MedAlign(Fleming et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib53))、SD-Bench(Nori et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib67))、ExpertQA(Malaviya et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib15))和MedThink-Bench(Zhou et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib18)),它们通常包含几百个专家标注的问答对。大多数现有的大规模医学基准来源于一般叙述性资源,如考试、教科书和临床指南,包括MedQA(Jin et al., 2021 (https://arxiv.org/html/2605.30637#bib.bib26))、MedMCQA(Pal et al., 2022 (https://arxiv.org/html/2605.30637#bib.bib27))、ClinicBench(Liu et al., 2024a (https://arxiv.org/html/2605.30637#bib.bib32))、MedXpertQA(Zuo et al., 2025 (https://arxiv.org/html/2605.30637#bib.bib30))、MedChain(Liu et al., 2024b (https://arxiv.org/html/2605.30637#bib.bib36))、MedExQA(Kim et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib37))、LLM-Eval-Med(Zhang et al., 2025a (https://arxiv.org/html/2605.30637#bib.bib34))、TrialPanorama(Wang et al., 2025b (https://arxiv.org/html/2605.30637#bib.bib31))、CHBench(Guo et al., 2024 (https://arxiv.org/html/2605.30637#bib.bib45))、CMB(Wang et al., 2024a (https://arxiv.org/html/2605.30637#bib.bib47
相似文章
ClinicalBench:对 MIMIC-IV 跨入院临床问答中基于断言感知的检索进行压力测试
本文介绍了 ClinicalBench 和 EpiKG 系统,评估了针对 MIMIC-IV 数据在多个人工智能大语言模型(LLM)上的临床问答中基于断言感知的检索能力。研究证明,在检索过程中处理否定和时态信息,相比标准基线能显著提升性能。
MedCUA-Bench:面向临床计算机操作智能体的截图型基准测试
MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。
介绍 HealthBench
OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。
当病例罕见时:面向非指南临床问答的检索基准
介绍 OGCaReBench,这是一个自由形式的检索基准,用于评估 LLM 在需要超越标准指南推理的临床问题上的表现。实验表明,即使是最好的模型也仅能达到 56% 的准确率,但检索增强将性能提升至 82%。
UsefulBench:以决策有用信息为目标的信息检索
UsefulBench 引入了一个领域特定的基准数据集,用于区分信息检索中的文档相关性和有用性,表明基于相似度的信息检索系统混淆了这两个概念,而大语言模型可以解决这个问题但缺乏领域专业知识。