AIPatient Arena:基于电子健康记录的大语言模型在端到端临床咨询工作流中的评估

arXiv cs.CL 论文

摘要

介绍了AIPatient Arena,一个基于电子健康记录的评估框架,用于评估大语言模型在临床能力的多个维度。研究揭示了在问诊和伦理方面的优势,但在处理模糊性和诊断准确性方面的弱点。

arXiv:2606.17474v1 公告类型:新 摘要:大语言模型(LLM)越来越多地被考虑用于临床咨询任务,然而大多数医学评估仍然是静态的、单轮的或狭隘地基于结果的,限制了它们反映真实医疗场景中顺序性、不确定性和交互性的能力。在此,我们提出AIPatient Arena,一个基于电子健康记录(EHR)的评估框架,用于评估大语言模型在临床能力的八个维度上的实用性。该框架将EHR数据整合到患者特定的知识图谱中,支持多轮医患交互。我们将AIPatient Arena应用于一个包含437名患者的主要队列以及两个分布外验证队列,分别包含119名和67名患者。我们观察到,大语言模型在医学访谈提问技巧(QS;平均得分4.43-4.99/5)、伦理与职业行为(ET;4.38-4.93/5)以及临床解释的清晰度和透明度(EX;3.80-4.72/5)方面表现良好。在信息整合(II;3.19-4.21/5)和用药安全与合理性(MS;3.13-3.78/5)方面表现中等,但在处理模糊患者回应(HR;2.57-3.32/5)、信息覆盖度(IC;2.08-3.02/5)以及诊断准确性与推理(Dx;2.63-3.55/5)方面持续表现不佳。基于过程的评估揭示了重复性的交互失败,包括重复提问、遗漏既往病史以及对不确定性处理不足。更丰富的对话语境改善了诊断推理,但在治疗计划方面收益有限。这些发现表明,仅凭最终答案的准确性不足以评估临床准备度,并强调了评估模型在整个咨询过程中如何收集、解释和传达信息的重要性。AIPatient Arena提供了一个基于电子健康记录的框架,用于面向工作流的医疗大语言模型部署前评估。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:40

# AIPatient Arena: 基于电子健康记录的大型语言模型在端到端临床咨询流程中的评估
来源: https://arxiv.org/abs/2606.17474
作者: Jiahui Niu (https://arxiv.org/search/cs?searchtype=author&query=Niu,+J), Huizi Yu (https://arxiv.org/search/cs?searchtype=author&query=Yu,+H), Wenkong Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+W), Guangxin Dai (https://arxiv.org/search/cs?searchtype=author&query=Dai,+G), Jingxian He (https://arxiv.org/search/cs?searchtype=author&query=He,+J), Xiang Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+X), Zhiying Liang (https://arxiv.org/search/cs?searchtype=author&query=Liang,+Z), Xinxin Lin (https://arxiv.org/search/cs?searchtype=author&query=Lin,+X), Kent CY So (https://arxiv.org/search/cs?searchtype=author&query=So,+K+C), Bryan YP Yan (https://arxiv.org/search/cs?searchtype=author&query=Yan,+B+Y), Yun Kwok Wing (https://arxiv.org/search/cs?searchtype=author&query=Wing,+Y+K), Yanqiu Xing (https://arxiv.org/search/cs?searchtype=author&query=Xing,+Y), Xin Ma (https://arxiv.org/search/cs?searchtype=author&query=Ma,+X), Lizhou Fan (https://arxiv.org/search/cs?searchtype=author&query=Fan,+L)

查看 PDF (https://arxiv.org/pdf/2606.17474)

> 摘要: 大型语言模型 (LLMs) 越来越多地被考虑用于临床咨询任务,然而大多数医学评估仍然停留在静态、单轮或狭窄的基于结果的评估上,限制了它们反映真实世界医疗中顺序性、不确定性和互动性特征的能力。在此,我们提出 AIPatient Arena,一个基于电子健康记录 (EHR) 的评估框架,用于评估 LLMs 在八个临床能力维度上的临床实用性。该框架将 EHR 数据整合到患者特定的知识图谱中,实现了多轮医患交互。我们在一个包含 437 名患者的主要队列以及两个分布外验证队列(分别含 119 名和 67 名患者)上应用了 AIPatient Arena。我们观察到,LLMs 在医学访谈提问技巧 (QS; 平均得分 4.43-4.99/5)、伦理与职业行为 (ET; 4.38-4.93/5) 以及临床解释的清晰度和透明度 (EX; 3.80-4.72/5) 方面表现良好。在信息整合 (II; 3.19-4.21/5) 和用药安全与合理性 (MS; 3.13-3.78/5) 方面表现中等,但在处理模糊的患者回应 (HR; 2.57-3.32/5)、信息覆盖范围 (IC; 2.08-3.02/5) 以及诊断准确性与推理 (Dx; 2.63-3.55/5) 方面持续存在弱点。基于过程的评估揭示了反复出现的交互失败,包括重复提问、遗漏既往病史以及处理不确定性的不足。更丰富的对话上下文改善了诊断推理,但在治疗计划方面带来的改进有限。这些发现表明,仅凭最终答案的准确性不足以评估临床准备度,并强调评估模型在整个咨询过程中如何收集、解释和传达信息的重要性。AIPatient Arena 提供了一个基于 EHR 的工作流导向的医学 LLMs 部署前评估框架。

## 提交历史

来自: Lizhou Fan [查看邮件 (https://arxiv.org/show-email/9c8e7af0/2606.17474)] **\[v1\]** 2026年6月16日星期二 03:35:17 UTC (12,193 KB)

相似文章

在标准化病例中评估大语言模型在动态临床决策中的表现

Hugging Face Daily Papers

研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。