LLMs 是否已准备好协助医生？PhysAssistBench：用于交互式医生-患者-EHR 辅助的基准

arXiv cs.CL 2026/06/18 04:00 论文

medical-llm benchmark clinical-ai ehr interactive-assistance llm-evaluation

摘要

介绍了 PhysAssistBench，这是一个用于评估 LLM 在交互式医生-患者-EHR 辅助中性能的基准。实验表明，当前模型在此场景下不可靠，凸显了协调能力的需求。

arXiv:2606.18613v1 公告类型：新摘要：医疗 LLM 最可能的近期角色是协助而非取代医生，然而当前的评估通常测试孤立能力：临床知识、EHR 系统交互或患者沟通。医生辅助反而需要在同一交互中协调这些能力，其中医生提出不明确的请求，患者模糊描述症状，EHR 系统要求精确的工具使用。我们引入了 PhysAssistBench，这是一个用于交互式医生-患者-EHR 辅助的基准。PhysAssistBench 基于真实的 MIMIC-IV 病例构建，使用可扩展的流水线构建代理患者：交互式、基于记录的代理将静态 EHR 记录转化为多轮临床场景，同时保持临床事实准确性。PhysAssistBench 提供了一个精心策划的双语评估集，包含 1,296 个经手动审核和医生验证的轮次。与领先 LLM 的实验表明，当前模型在此场景下不可靠，这暴露了临床 LLM 的关键瓶颈：可靠的辅助需要知识、沟通和系统之间的协调，而不是任何一方面的孤立进步。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:45

# 大型语言模型能否辅助医生？PhysAssistBench：面向交互式医生-患者-电子病历辅助的基准

来源：https://arxiv.org/html/2606.18613

田明 Du¹，培杰 Yu²，思涵 Shang³，丹丽 Shi⁴，My Linh Nguyen¹，晟博 Gao¹，广源 Li¹，映红 Yu¹，燕 Jiang¹，前龙 Zhao¹，Behzad Bozorgtabar⁵，少雄 Ji¹，嘉珍 Pan⁶，Daniel Rueckert⁶，建城 Yang¹†††x，1阿尔托大学，2腾讯，3哈尔滨工业大学（深圳），4香港理工大学，5奥胡斯大学，6慕尼黑工业大学 \{du\.tianming,jiancheng\.yang\}@aalto\.fi

###### 摘要

医疗大语言模型（LLM）最现实的近期角色是辅助而非取代医生，然而当前的评估常常测试孤立能力：临床知识、电子病历系统交互或患者沟通。相比之下，医生辅助需要在这些能力在同一个交互中进行协调，因为医生会提出不明确的请求，患者会模糊地描述症状，而电子病历系统要求精确的工具使用。我们提出了**PhysAssistBench**，一个面向交互式医生-患者-电子病历辅助的基准。该基准基于真实的MIMIC-IV病例，利用可扩展的流水线构建**agentic病人**：即基于记录的可交互智能体，它将静态的电子病历记录转化为多轮临床场景，同时保持临床事实准确性。**PhysAssistBench**提供了一个经过精心策划的双语评估集，包含1,296个经过人工审核并由医生验证的轮次。对领先LLM的实验表明，当前模型在此设置下仍不可靠，这暴露了临床LLM的一个关键瓶颈：可靠的辅助需要协调知识、沟通和系统，而不是在任何一个方面取得孤立进展。

## 1 引言

参考图注

图1：左：**PhysAssistBench**评估LLM作为医生助手，而非医生本身：助手在执行医生请求的同时，与基于记录且符合FHIR标准的电子病历系统以及对话患者进行交互。一个多智能体流水线将静态的MIMIC-IV记录转化为这个**agentic病人**环境，通过标准FHIR接口而非直接记录访问暴露这些信息。右：**PhysAssistBench**中一个典型的高血压病例。这个4轮会话从明确的查找逐渐过渡到涉及患者对话、临床推理和电子病历操作的隐性辅助，每轮都附带其交互流程和评分标准。

LLM为临床AI带来了巨大的乐观情绪Thirunavukarasu等人 (2023); Moore等人 (2023); Rajpurkar等人 (2022)。这种乐观情绪很大程度上源于它们在医学考试和问答基准上的强劲表现Kung等人 (2023); Singhal等人 (2023)，从而激发了将LLM视为医疗保健“新门户”的愿景NHS England-South East (2024); Kyle (2025)。然而，最近的研究表明，这种表现可能无法转化为交互式的临床应用。Laban等人 (2025)发现，从完全指定的单轮提示转向多轮、表述不明确的交互，导致平均性能下降39%。类似地，Bean等人 (2026)发现，LLM在单独测试时表现强劲，但在随机化医学自我评估研究中却未能提高用户表现，并将用户交互确定为一个关键障碍。这些发现揭示了当前评估实践中的一个差距：实际失败不仅可能源于医学知识不足，还可能源于交互失败。如表1所示，先前的医学LLM基准主要评估三种孤立角色：**知识**，模型充当医学专家；**系统**，模型检索或操作临床记录；以及**沟通**，模型与患者交互或生成临床文本。这些角色是有用的，但它们忽略了最现实的近期部署场景：在人类监督下辅助医生，正如伦理和监管期望所强调的World Health Organization (2021); U.S. Food and Drug Administration (2025)。从技术上讲，这个场景也正是近期研究揭示关键瓶颈的地方：交互Laban等人 (2025); Bean等人 (2026)。医生辅助并非静态问答，而是在不完整的医生意图、模糊的患者信息和精确的电子病历操作之间的交互式协调。图1说明了本文研究的场景。即使对医疗专业人员而言，医生请求也常常依赖于上下文、简短且跨越多个轮次。助手必须将这些隐含的请求映射到两个不同的接口：需要精确工具调用的电子病历系统，以及提供口语化、不完整且临床上不准确信息的患者。它必须决定何时查询电子病历，何时询问患者，以及如何将证据整合到面向医生的响应中。正如将在第2节中讨论的那样，现有基准并未涵盖这种组合。

我们提出了**PhysAssistBench**，一个面向交互式医生-患者-电子病历辅助的基准。评估此类交互不仅需要静态临床记录：它必须提供能够跨轮次回应的患者、可以通过结构化工具查询的电子病历系统，以及随上下文演变的医生请求。为了使这一切具有可扩展性，同时保持临床基础，**PhysAssistBench**通过一个多智能体合成数据流水线重新利用真实的MIMIC-IVJohnson等人 (2023)病例。该流水线从符合条件的记录中规划临床上合理的场景，并构建**agentic病人**：即基于记录的可交互智能体，它将静态电子病历病例转化为多轮临床场景。与不受限制的患者模拟不同，这些智能体基于现有的电子病历证据；不支持的情况会被过滤掉，而不是进行反事实重写。所制定的基准包含324个多轮会话，每个会话由8名经过训练的标注员审核，并由一名医生验证。它涵盖4种临床场景（诊断检查、用药安全、治疗反应、出院计划），4种任务（信息查找、数据收集、临床推理、写入/更新），以及3种医生查询隐式子类型：名词回指（na）、谓语省略（pe）和抽象事件回指（ae）。每个会话使用标准化的FHIR R4工具集，并以英语和中文进行评估。提供了按轮次划分的评分标准，以实现稳定且可解释的评估。图1展示了一个典型的4轮会话，说明了隐性医生请求、患者歧义性和电子病历精度如何在同一个工作流程中同时出现。

我们的贡献有三方面。首先，我们将交互式医生辅助定义为跨临床知识、患者沟通和电子病历系统的协调问题——这是一个被现有孤立角色评估所忽视的场景。其次，我们开发了一个可扩展的多智能体合成数据流水线，将静态的MIMIC-IV记录重新用于**agentic病人**，从而创建具有临床基础的多轮医生-患者-电子病历场景。第三，我们发布了**PhysAssistBench**，一个经过人工审核并由医生验证的基准，包含324个会话和1,296个轮次，并表明领先的LLM尚不是可靠的医生助手，尤其是在解决医生意图、处理患者歧义、发出有根据的电子病历查询以及跨来源整合证据方面。我们将向研究社区完全发布我们的数据集和代码。（详情见附录B）

表1：现有电子病历和医学智能体基准的比较。**评估焦点**表示测试的主要能力：*知识*（医学专业知识）、*系统*（电子病历或工具使用）和*沟通*（患者对话）。**PhysAssistBench**是唯一一个在所有三个交互维度上具有综合*辅助*焦点的基准。**隐性查询**、**患者交互**、**工具使用**和**轮次**分别表示未明确指定的医生请求、模拟患者交互、可执行工具（适用时注明FHIR）以及单轮或多轮评估。

## 2 相关工作

### 2.1 电子病历和医学智能体基准

表1根据评估焦点和交互维度比较了现有基准。大多数现有基准评估的是孤立能力，而非集成的医生助手工作流程。大量工作集中在**知识**上，测试医学推理能力，涉及问题、笔记、记录或智能体风格的临床任务Jin等人 (2019); Shi等人 (2024); Kweon等人 (2024); Chen等人 (2024); Mehandru等人 (2025); Wang等人 (2025); Zhou等人 (2025); Tang等人 (2025)。这些基准评估临床专业知识，但大多假设完全指定、静态的输入，不涉及跨轮次的患者或电子病历交互。另一条线聚焦于**系统**交互，评估电子病历检索或临床工具使用Lee等人 (2022); Bae等人 (2023); Jiang等人 (2025); Lee等人 (2025); Xu等人 (2026a)。然而，它们通常将电子病历访问视为独立的工具使用，而不测试隐性引用、论据省略或跨轮次延续。第三条线聚焦于**沟通**，其中模型与患者交互或生成临床文本。AgentClinicSchmidgall等人 (2026)支持多轮医生-患者交互，并且最接近我们场景中的对话部分，但没有同时评估结构化的电子病历工具使用、患者对话和隐性医生请求。总体而言，现有基准涵盖了临床LLM评估的重要部分，但不是集成的**辅助**场景，在这个场景中，LLM必须在不断变化的医生指令下协调**知识**、**沟通**和**系统**交互。Luo等人 (2026)也阐述了通过真实电子病历接口在动态、交互式临床环境中评估临床LLM的研究愿景，与我们对当前评估范式的批评一致。如表1所示，**PhysAssistBench**是唯一一个同时涵盖隐性查询、患者交互、基于FHIR的电子病历工具使用和多轮评估的基准。这种覆盖范围得益于一个可扩展的多智能体合成数据流水线，该流水线将静态的MIMIC-IV记录转化为交互式医生-患者-电子病历场景。

### 2.2 医学合成数据

医学合成数据已成为解决医疗保健中数据稀缺、隐私和偏见问题的重要策略。大多数先前的工作遵循**生成式**合成范式，通过生成模型创建逼真的医学图像、临床文本、表格电子病历数据或多模态患者记录，用于训练和评估Fansi Tchango等人 (2022); Li等人 (2023b); Seo and Lee (2024); Zhang等人 (2025, 2026)。除了样本生成之外，最近的研究也涉及**智能体**数据合成，其中LLM或多智能体系统通过提示编码约束Das等人 (2024)或基于电子病历证据的临床医生-患者角色模拟来构建临床对话Wang等人 (2024); ALMutairi等人 (2024); Xu等人 (2026b)。**PhysAssistBench**的不同之处在于，它使用合成数据来构建交互式评估环境。其可扩展的多智能体合成数据流水线从真实记录中规划临床上合理的场景，并构建**agentic病人**，这些智能体基于现有的电子病历证据，而不是不受限制的模拟；不支持的情况会被过滤掉，而不是进行反事实重写。由此产生的评估集经过人工审核并由医生验证，以确保可靠性。

### 2.3 工具使用和函数调用

通用领域的工具使用基准评估API选择、函数调用和工具介导的任务完成Li等人 (2023a); Qin等人 (2023); Krishna等人 (2025); Yu等人 (2026)。虽然这些对于研究智能体工具使用很有用，但它们大多假设通用领域，没有建模临床工具模式、基于FHIR的电子病历操作或隐性医生查询。**PhysAssistBench**则将工具使用嵌入到一个交互式医生-患者-电子病历工作流程中，该工作流程需要在基于FHIR的电子病历工具、模糊的患者对话和不断变化的医生指令之间进行协调。

### 2.4 对话中的省略和回指

省略和回指在自然对话中普遍存在，并且长期以来在语言学和自然语言处理中得到了研究Gerber and Chai (2010); Lee等人 (2017, 2018); Marasović等人 (2017); Kolhatkar and Hirst (2014)。它们涵盖了省略谓语或论据、实体引用和抽象事件引用等现象，所有这些都需要依赖于上下文的解释。在临床沟通中，尤其是医生指令中，这种隐式性很常见：临床医生通常依赖于共享语境、简化重复动作，并在多个轮次中回溯先前的发现。尽管存在这种情况，现有的电子病历和医学智能体基准通常将查询表述为明确、独立的指令，从而忽视了隐性的医生请求。

## 3 PhysAssistBench

### 3.1 概述

**PhysAssistBench**是一个多轮基准

LLMs 是否已准备好协助医生？PhysAssistBench：用于交互式医生-患者-EHR 辅助的基准

相似文章

EHRBench：用于大语言模型临床决策的自动化可靠电子健康记录基准

人机对话提升急诊诊疗的诊断准确性

AIPatient Arena：基于电子健康记录的大语言模型在端到端临床咨询工作流中的评估

在标准化病例中评估大语言模型在动态临床决策中的表现

测量LLMs在误导性医疗语境下的认知韧性

提交意见反馈