AIPatient Arena：基于电子健康记录的大语言模型在端到端临床咨询工作流中的评估

arXiv cs.CL 2026/06/17 04:00 论文

ehr clinical-consultation evaluation llm medical-ai healthcare

摘要

介绍了AIPatient Arena，一个基于电子健康记录的评估框架，用于评估大语言模型在临床能力的多个维度。研究揭示了在问诊和伦理方面的优势，但在处理模糊性和诊断准确性方面的弱点。

arXiv:2606.17474v1 公告类型：新摘要：大语言模型（LLM）越来越多地被考虑用于临床咨询任务，然而大多数医学评估仍然是静态的、单轮的或狭隘地基于结果的，限制了它们反映真实医疗场景中顺序性、不确定性和交互性的能力。在此，我们提出AIPatient Arena，一个基于电子健康记录（EHR）的评估框架，用于评估大语言模型在临床能力的八个维度上的实用性。该框架将EHR数据整合到患者特定的知识图谱中，支持多轮医患交互。我们将AIPatient Arena应用于一个包含437名患者的主要队列以及两个分布外验证队列，分别包含119名和67名患者。我们观察到，大语言模型在医学访谈提问技巧（QS；平均得分4.43-4.99/5）、伦理与职业行为（ET；4.38-4.93/5）以及临床解释的清晰度和透明度（EX；3.80-4.72/5）方面表现良好。在信息整合（II；3.19-4.21/5）和用药安全与合理性（MS；3.13-3.78/5）方面表现中等，但在处理模糊患者回应（HR；2.57-3.32/5）、信息覆盖度（IC；2.08-3.02/5）以及诊断准确性与推理（Dx；2.63-3.55/5）方面持续表现不佳。基于过程的评估揭示了重复性的交互失败，包括重复提问、遗漏既往病史以及对不确定性处理不足。更丰富的对话语境改善了诊断推理，但在治疗计划方面收益有限。这些发现表明，仅凭最终答案的准确性不足以评估临床准备度，并强调了评估模型在整个咨询过程中如何收集、解释和传达信息的重要性。AIPatient Arena提供了一个基于电子健康记录的框架，用于面向工作流的医疗大语言模型部署前评估。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:40

# AIPatient Arena: 基于电子健康记录的大型语言模型在端到端临床咨询流程中的评估
来源: https://arxiv.org/abs/2606.17474
作者: Jiahui Niu (https://arxiv.org/search/cs?searchtype=author&query=Niu,+J), Huizi Yu (https://arxiv.org/search/cs?searchtype=author&query=Yu,+H), Wenkong Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+W), Guangxin Dai (https://arxiv.org/search/cs?searchtype=author&query=Dai,+G), Jingxian He (https://arxiv.org/search/cs?searchtype=author&query=He,+J), Xiang Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+X), Zhiying Liang (https://arxiv.org/search/cs?searchtype=author&query=Liang,+Z), Xinxin Lin (https://arxiv.org/search/cs?searchtype=author&query=Lin,+X), Kent CY So (https://arxiv.org/search/cs?searchtype=author&query=So,+K+C), Bryan YP Yan (https://arxiv.org/search/cs?searchtype=author&query=Yan,+B+Y), Yun Kwok Wing (https://arxiv.org/search/cs?searchtype=author&query=Wing,+Y+K), Yanqiu Xing (https://arxiv.org/search/cs?searchtype=author&query=Xing,+Y), Xin Ma (https://arxiv.org/search/cs?searchtype=author&query=Ma,+X), Lizhou Fan (https://arxiv.org/search/cs?searchtype=author&query=Fan,+L)

查看 PDF (https://arxiv.org/pdf/2606.17474)

> 摘要: 大型语言模型 (LLMs) 越来越多地被考虑用于临床咨询任务，然而大多数医学评估仍然停留在静态、单轮或狭窄的基于结果的评估上，限制了它们反映真实世界医疗中顺序性、不确定性和互动性特征的能力。在此，我们提出 AIPatient Arena，一个基于电子健康记录 (EHR) 的评估框架，用于评估 LLMs 在八个临床能力维度上的临床实用性。该框架将 EHR 数据整合到患者特定的知识图谱中，实现了多轮医患交互。我们在一个包含 437 名患者的主要队列以及两个分布外验证队列（分别含 119 名和 67 名患者）上应用了 AIPatient Arena。我们观察到，LLMs 在医学访谈提问技巧 (QS; 平均得分 4.43-4.99/5)、伦理与职业行为 (ET; 4.38-4.93/5) 以及临床解释的清晰度和透明度 (EX; 3.80-4.72/5) 方面表现良好。在信息整合 (II; 3.19-4.21/5) 和用药安全与合理性 (MS; 3.13-3.78/5) 方面表现中等，但在处理模糊的患者回应 (HR; 2.57-3.32/5)、信息覆盖范围 (IC; 2.08-3.02/5) 以及诊断准确性与推理 (Dx; 2.63-3.55/5) 方面持续存在弱点。基于过程的评估揭示了反复出现的交互失败，包括重复提问、遗漏既往病史以及处理不确定性的不足。更丰富的对话上下文改善了诊断推理，但在治疗计划方面带来的改进有限。这些发现表明，仅凭最终答案的准确性不足以评估临床准备度，并强调评估模型在整个咨询过程中如何收集、解释和传达信息的重要性。AIPatient Arena 提供了一个基于 EHR 的工作流导向的医学 LLMs 部署前评估框架。

## 提交历史

来自: Lizhou Fan [查看邮件 (https://arxiv.org/show-email/9c8e7af0/2606.17474)] **\[v1\]** 2026年6月16日星期二 03:35:17 UTC (12,193 KB)

AIPatient Arena：基于电子健康记录的大语言模型在端到端临床咨询工作流中的评估

相似文章

ChatHealthAI: 将电子健康记录表示与大型语言模型对齐以实现基于临床的推理

在标准化病例中评估大语言模型在动态临床决策中的表现

一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架

LLMs 是否已准备好协助医生？PhysAssistBench：用于交互式医生-患者-EHR 辅助的基准

语言模型作为接口，而非预言机：用于儿童阑尾炎的混合LLM-ML系统

提交意见反馈