AIPatient Arena:基于电子健康记录的大语言模型在端到端临床咨询工作流中的评估
摘要
介绍了AIPatient Arena,一个基于电子健康记录的评估框架,用于评估大语言模型在临床能力的多个维度。研究揭示了在问诊和伦理方面的优势,但在处理模糊性和诊断准确性方面的弱点。
arXiv:2606.17474v1 公告类型:新
摘要:大语言模型(LLM)越来越多地被考虑用于临床咨询任务,然而大多数医学评估仍然是静态的、单轮的或狭隘地基于结果的,限制了它们反映真实医疗场景中顺序性、不确定性和交互性的能力。在此,我们提出AIPatient Arena,一个基于电子健康记录(EHR)的评估框架,用于评估大语言模型在临床能力的八个维度上的实用性。该框架将EHR数据整合到患者特定的知识图谱中,支持多轮医患交互。我们将AIPatient Arena应用于一个包含437名患者的主要队列以及两个分布外验证队列,分别包含119名和67名患者。我们观察到,大语言模型在医学访谈提问技巧(QS;平均得分4.43-4.99/5)、伦理与职业行为(ET;4.38-4.93/5)以及临床解释的清晰度和透明度(EX;3.80-4.72/5)方面表现良好。在信息整合(II;3.19-4.21/5)和用药安全与合理性(MS;3.13-3.78/5)方面表现中等,但在处理模糊患者回应(HR;2.57-3.32/5)、信息覆盖度(IC;2.08-3.02/5)以及诊断准确性与推理(Dx;2.63-3.55/5)方面持续表现不佳。基于过程的评估揭示了重复性的交互失败,包括重复提问、遗漏既往病史以及对不确定性处理不足。更丰富的对话语境改善了诊断推理,但在治疗计划方面收益有限。这些发现表明,仅凭最终答案的准确性不足以评估临床准备度,并强调了评估模型在整个咨询过程中如何收集、解释和传达信息的重要性。AIPatient Arena提供了一个基于电子健康记录的框架,用于面向工作流的医疗大语言模型部署前评估。
查看缓存全文
缓存时间: 2026/06/17 05:40
# AIPatient Arena: 基于电子健康记录的大型语言模型在端到端临床咨询流程中的评估 来源: https://arxiv.org/abs/2606.17474 作者: Jiahui Niu (https://arxiv.org/search/cs?searchtype=author&query=Niu,+J), Huizi Yu (https://arxiv.org/search/cs?searchtype=author&query=Yu,+H), Wenkong Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+W), Guangxin Dai (https://arxiv.org/search/cs?searchtype=author&query=Dai,+G), Jingxian He (https://arxiv.org/search/cs?searchtype=author&query=He,+J), Xiang Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+X), Zhiying Liang (https://arxiv.org/search/cs?searchtype=author&query=Liang,+Z), Xinxin Lin (https://arxiv.org/search/cs?searchtype=author&query=Lin,+X), Kent CY So (https://arxiv.org/search/cs?searchtype=author&query=So,+K+C), Bryan YP Yan (https://arxiv.org/search/cs?searchtype=author&query=Yan,+B+Y), Yun Kwok Wing (https://arxiv.org/search/cs?searchtype=author&query=Wing,+Y+K), Yanqiu Xing (https://arxiv.org/search/cs?searchtype=author&query=Xing,+Y), Xin Ma (https://arxiv.org/search/cs?searchtype=author&query=Ma,+X), Lizhou Fan (https://arxiv.org/search/cs?searchtype=author&query=Fan,+L) 查看 PDF (https://arxiv.org/pdf/2606.17474) > 摘要: 大型语言模型 (LLMs) 越来越多地被考虑用于临床咨询任务,然而大多数医学评估仍然停留在静态、单轮或狭窄的基于结果的评估上,限制了它们反映真实世界医疗中顺序性、不确定性和互动性特征的能力。在此,我们提出 AIPatient Arena,一个基于电子健康记录 (EHR) 的评估框架,用于评估 LLMs 在八个临床能力维度上的临床实用性。该框架将 EHR 数据整合到患者特定的知识图谱中,实现了多轮医患交互。我们在一个包含 437 名患者的主要队列以及两个分布外验证队列(分别含 119 名和 67 名患者)上应用了 AIPatient Arena。我们观察到,LLMs 在医学访谈提问技巧 (QS; 平均得分 4.43-4.99/5)、伦理与职业行为 (ET; 4.38-4.93/5) 以及临床解释的清晰度和透明度 (EX; 3.80-4.72/5) 方面表现良好。在信息整合 (II; 3.19-4.21/5) 和用药安全与合理性 (MS; 3.13-3.78/5) 方面表现中等,但在处理模糊的患者回应 (HR; 2.57-3.32/5)、信息覆盖范围 (IC; 2.08-3.02/5) 以及诊断准确性与推理 (Dx; 2.63-3.55/5) 方面持续存在弱点。基于过程的评估揭示了反复出现的交互失败,包括重复提问、遗漏既往病史以及处理不确定性的不足。更丰富的对话上下文改善了诊断推理,但在治疗计划方面带来的改进有限。这些发现表明,仅凭最终答案的准确性不足以评估临床准备度,并强调评估模型在整个咨询过程中如何收集、解释和传达信息的重要性。AIPatient Arena 提供了一个基于 EHR 的工作流导向的医学 LLMs 部署前评估框架。 ## 提交历史 来自: Lizhou Fan [查看邮件 (https://arxiv.org/show-email/9c8e7af0/2606.17474)] **\[v1\]** 2026年6月16日星期二 03:35:17 UTC (12,193 KB)
相似文章
ChatHealthAI: 将电子健康记录表示与大型语言模型对齐以实现基于临床的推理
ChatHealthAI 是一个多模态推理框架,它将结构化 EHR 表示与冻结的 LLM 对齐,从而在保持预测性能的同时实现基于临床的推理。
在标准化病例中评估大语言模型在动态临床决策中的表现
研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。
LLMs 是否已准备好协助医生?PhysAssistBench:用于交互式医生-患者-EHR 辅助的基准
介绍了 PhysAssistBench,这是一个用于评估 LLM 在交互式医生-患者-EHR 辅助中性能的基准。实验表明,当前模型在此场景下不可靠,凸显了协调能力的需求。
语言模型作为接口,而非预言机:用于儿童阑尾炎的混合LLM-ML系统
本文介绍了ClaMPAPP,一种混合架构,使用LLM作为接口从临床叙述中提取特征,然后将这些特征传递给XGBoost分类器进行儿童阑尾炎诊断,展示了相比端到端LLM基线更高的鲁棒性和安全性。