MedCUA-Bench:面向临床计算机操作智能体的截图型基准测试
摘要
MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。
arXiv:2606.03203v1 公告类型:新
摘要:计算机操作智能体可以自动化重复性的屏幕临床工作,但它们在医疗图形用户界面中的可靠性尚未得到充分验证。现有基准测试侧重于通用网页或桌面任务,对医疗软件的覆盖不足,而医疗软件需要领域知识,其用户界面设计与主流应用程序显著不同,缺乏公共测试环境,并且需要超越任务完成的安全验证。我们引入了 MedCUA-Bench,一个面向临床计算机操作智能体的交互式基准测试。它涵盖了10个医学领域的18个临床场景,这些场景根据真实产品手册和开源医疗系统重构而来,以捕捉真实的临床界面,同时避免许可和隐私限制。每个任务都配有意图层级和步骤层级的目标对,以将临床推理与用户界面执行分离开来,并通过确定性检查器在任务完成和五个临床安全维度上进行评估。在23个智能体中,最好的闭源模型达到了54.2%的严格成功率,而在真实的OpenEMR上,所有模型的成功率都低于9%。开源智能体的平均成功率仅为2.5%,最好的达到16.2%。MedCUA-Bench 揭示了当前智能体与可靠临床软件使用之间的差距,为未来研究提供了一个可重复的测试平台。
查看缓存全文
缓存时间: 2026/06/03 09:43
# MedCUA-Bench:仅基于截图的临床计算机使用智能体基准 **来源**:https://arxiv.org/html/2606.03203 Jia Yu¹˒²˒³, Zilong Wang¹ᐩ, Xinyang Jiang¹, Dongsheng Li¹, Shuo Wang²˒³ᐩ ¹微软亚洲研究院,上海,中国 ²复旦大学基础医学院数字医学研究中心,上海,中国 ³上海市 MICCAI 重点实验室,上海,中国 †通讯作者 ###### 摘要 计算机使用智能体能够自动化基于屏幕的重复性临床工作,但它们在医学图形用户界面中的可靠性在很大程度上仍未得到验证。现有基准主要针对通用网页或桌面任务,对医疗软件的覆盖不足——医疗软件需具备领域知识、用户界面设计与主流应用显著不同、缺乏公开测试环境,并且除任务完成外还需安全性验证。我们提出 MedCUA-Bench,一个面向临床计算机使用智能体的交互式基准。它涵盖 10 个医学领域的 18 个临床场景,基于真实产品手册和开源医疗系统重构,捕捉真实的临床界面,同时规避许可和隐私限制。每个任务附带配对的目标:意图级目标和步骤级目标,将临床推理与界面操作分离;并通过确定性检查器评估任务完成情况及五个临床安全维度。在 23 个智能体中,最佳闭源模型仅达到 54.2% 的严格成功率,而所有模型在真实 OpenEMR 上的成功率均低于 9%。开源智能体平均仅 2.5%,最佳为 16.2%。MedCUA-Bench 揭示了当前智能体与可靠临床软件使用之间的差距,为未来研究提供了可复现的测试平台。 --- ## 1 引言 计算机使用智能体(CUA)是能够代表用户操作计算机软件的大型语言或多模态模型(Hong et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib1); Zheng et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib2); Niu et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib3))。在医学领域,这一能力极具吸引力,因为临床医生每个班次的大部分时间都花费在电子健康记录(EHR)及相关行政系统上(Sinsky et al., 2016 (https://arxiv.org/html/2606.03203#bib.bib22); Arndt et al., 2017 (https://arxiv.org/html/2606.03203#bib.bib23))。他们还需要在一次诊疗过程中穿梭于护理流程表、影像归档系统、床旁监护仪及其他工具之间。如果 CUA 能够可靠地处理常规分诊记录、药物核对或医嘱录入,将有助于减轻临床医生的职业倦怠。如图 1 (https://arxiv.org/html/2606.03203#S1.F1) 所示,现有基准已在通用网页、桌面及特定领域软件环境中评估了智能体(Shi et al., 2017 (https://arxiv.org/html/2606.03203#bib.bib4); Yao et al., 2022 (https://arxiv.org/html/2606.03203#bib.bib6); Deng et al., 2023 (https://arxiv.org/html/2606.03203#bib.bib7); Zhou et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib8); Koh et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib9); Xie et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib10); Sun et al., 2026 (https://arxiv.org/html/2606.03203#bib.bib14)),但未涉及临床软件所需的可靠性要求。临床环境与这些设置存在四点不同。 **首先,临床任务需要领域知识。** 临床图形用户界面充斥着患者信息、专科术语、医嘱、测量值和警报;将高层次的临床意图映射为正确的界面操作序列,需要一般智能体通常缺乏的医学专业知识。 **其次,医疗软件具有独特的用户界面设计。** 许多已部署的系统依赖于传统布局、密集的表单式界面以及特有的控件,与当前智能体主要训练和评估的现代网页和桌面应用差异显著。 **第三,公开的临床软件大多无法用于测试。** 真实系统受法规、许可和专有权的限制,且隐私、安全和认证约束进一步阻碍了将其封装用于公开评估,同时也限制通过其他基准常用依赖的 API、DOM 树或可访问性结构进行访问。 **第四,临床应用需要额外的安全性验证。** 智能体可能在看似完成任务的同时,针对错误的患者操作、输入错误数据、遗漏必要信息或违反预期工作流;因此,当前基准使用的二元任务完成指标无法捕捉有临床意义的失败。 尽管通用计算机使用智能体取得了快速进展,但它们在医学图形用户界面中的可靠性在很大程度上仍未被验证。  **图 1:为什么医疗图形用户界面智能体需要专用基准。** 通用图形用户界面基准缺乏真实的临床环境,无法捕捉关键的医疗失败模式——名义上的任务完成仍可能对应不安全行为,且规划错误与执行错误常被混淆。 我们提出 MedCUA-Bench,一个面向临床图形用户界面中计算机使用智能体的交互式基准,包含来自真实产品手册和开源医疗软件(OpenEMR Foundation, 2024 (https://arxiv.org/html/2606.03203#bib.bib20); Open Health Imaging Foundation, 2024 (https://arxiv.org/html/2606.03203#bib.bib21))重构的 10 个医学领域的 18 个临床场景。它捕捉了真实的临床用户界面,同时避开了公开发布所需的许可和隐私障碍。每个任务提供两种目标粒度:由临床医生委托的意图级目标,以及逐步分解的步骤级目标,后者以点击方式指定同一过程,从而将临床推理与界面操作分离。评估是确定性的,涵盖五个安全维度:患者身份、数据准确性、信息保真度、记录完整性和工作流安全性,并带有严重性加权的违规行为,可对有害的任务完成分配负奖励。表 1 (https://arxiv.org/html/2606.03203#S1.T1) 对比了 MedCUA 与先前基准。据我们所知,MedCUA 是**第一个**在可执行的图形用户界面中评估跨完整临床工作流的计算机使用智能体的基准。我们的评估显示,即使是最强的当前智能体,距离临床可靠性仍相去甚远。 | 基准 | 医学领域 | 真实临床软件 | 像素级操作 | 多项/步骤级目标配对 | 安全性感知评估 | 确定性检查器 | |------|----------|--------------|------------|----------------------|----------------|--------------| | MiniWoB++ (Liu et al., 2018 (https://arxiv.org/html/2606.03203#bib.bib5)) | ✗ | ✗ | ✓ | ✗ | ✗ | ✓ | | WebShop (Yao et al., 2022 (https://arxiv.org/html/2606.03203#bib.bib6)) | ✗ | ✗ | ✓ | ✗ | ✗ | ✓ | | Mind2Web (Deng et al., 2023 (https://arxiv.org/html/2606.03203#bib.bib7)) | ✗ | ✗ | ✓ | ✓ | ✗ | ✗ | | WebArena (Zhou et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib8)) | ✗ | ✗ | ✓ | ✓ | ✗ | ✓ | | VisualWebArena (Koh et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib9)) | ✗ | ✗ | ✓ | ✓ | ✗ | ✓ | | OSWorld (Xie et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib10)) | ✗ | ✗ | ✓ | ✓ | ✗ | ✓ | | ScienceBoard (Sun et al., 2026 (https://arxiv.org/html/2606.03203#bib.bib14)) | ✗ | ✗ | ✓ | ✓ | ✗ | ✓ | | AgentClinic (Schmidgall et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib16)) | ✓ | ✗ | ✗ | ✓ | ⚫ | ✓ | | MedAgentBench (Jiang et al., 2025 (https://arxiv.org/html/2606.03203#bib.bib17)) | ✓ | ✗ | ✗ | ✗ | ✗ | ✓ | | MedSPOT (Shakeel et al., 2026 (https://arxiv.org/html/2606.03203#bib.bib19)) | ✓ | ✓ | ⚫ | ✓ | ✗ | ✓ | | HealthAdminBench (Bedi et al., 2026 (https://arxiv.org/html/2606.03203#bib.bib26)) | ✓ | ✗ | ✓ | ✗ | ⚫ | ⚫ | | **MedCUA (ours)** | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | **表 1:MedCUA 与代表性图形用户界面及医疗智能体基准的对比。** ✓ 表示该属性完全支持,✗ 表示不支持,⚫ 表示仅部分支持(例如,仅限定位动作、模拟软件、结合确定性检查的 LLM 评分器,或非主要评估的逐步提示模式)。 ## 2 相关工作 #### 图形用户界面与网页智能体基准。 自主图形用户界面智能体的研究已从命令行和表单填写任务(Shi et al., 2017 (https://arxiv.org/html/2606.03203#bib.bib4))发展到真实网站上的购物和信息搜索(Yao et al., 2022 (https://arxiv.org/html/2606.03203#bib.bib6); Deng et al., 2023 (https://arxiv.org/html/2606.03203#bib.bib7))。WebArena 和 VisualWebArena 标准化了在自托管、可复现的网页栈上的评估(Zhou et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib8); Koh et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib9));OSWorld 和 WindowsAgentArena 将同一范式扩展到具有开放式桌面工作流的完整操作系统(Xie et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib10); Bonatti et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib11))。BrowserGym 将许多此类环境整合在一个 Gymnasium 接口下,我们在此基础上构建(Drouin et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib12); Chezelles et al., 2025 (https://arxiv.org/html/2606.03203#bib.bib13))。在模型方面,基于 GPT-4V 的流水线(如 SeeAct(Zheng et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib2)))和开源智能体(如 CogAgent(Hong et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib1))及 ScreenAgent(Niu et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib3)))已表明像素级定位现已可行,但它们几乎完全在消费领域应用上评估。 #### 专业与科学图形用户界面。 最近一系列工作针对领域专用软件。ScienceBoard 评估智能体在涵盖生物化学、天文学和地理信息系统的真实科学应用上的表现,使用 ChimeraX、Celestia 和 GrassGIS 等软件(Sun et al., 2026 (https://arxiv.org/html/2606.03203#bib.bib14)),SpreadsheetBench 研究办公生产力工作流(Ma et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib15))。这些基准已表明通用 CUA 难以迁移至垂直软件,但未涉及区分临床实践的隐私、术语和安全约束。 #### 医疗智能体基准。 医学 AI 智能体大多数情况下在基于文本的环境中评估。AgentClinic 模拟临床对话并测试诊断推理(Schmidgall et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib16)),而 MedAgentBench 通过结构化的 FHIR API 评估 EHR 风格的任务,而非临床医生使用的图形界面(Jiang et al., 2025 (https://arxiv.org/html/2606.03203#bib.bib17))。MedCalc-Bench 聚焦于基于文本输入的临床计算(Khandekar et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib18))。与我们的设置更接近的是 MedSPOT,它研究临床软件中工作流感知的视觉定位(Shakeel et al., 2026 (https://arxiv.org/html/2606.03203#bib.bib19)),但未评估端到端执行、持久写入或安全性惩罚。HealthAdminBench 研究 CUA 在医疗行政工作流上的应用(Bedi et al., 2026 (https://arxiv.org/html/2606.03203#bib.bib26));相比之下,MedCUA 针对可执行的临床护理图形用户界面,涵盖 18 个场景和 10 个专科的分诊、记录、医嘱和影像,并带有明确的安全性感知评估。  **图 2:MedCUA 概览。** 临床医生构建涵盖十个领域的环境,并为每个任务提供两种目标表述:意图级目标和步骤级目标。智能体从截图中与每个环境交互。确定性检查器将最终状态与预期值在五个安全维度上进行对比。 ## 3 MedCUA MedCUA 围绕临床计算机使用的三个需求而设计:广泛且逼真的临床覆盖、区分规划与执行的配对目标,以及反映安全性的确定性评分。为确保临床保真度,MedCUA 的设计与两位执业医师合作完成,他们指导了场景和任务的构建,并共同定义了检查器评估的五个安全维度。每个场景实现为一个 BrowserGym 环境(Drouin et al., 2024 (https://arxiv.org/html/2606.03203#bib.bib12); Chezelles et al., 2025 (https://arxiv.org/html/2606.03203#bib.bib13))。本节剩余部分定义环境和任务单元,描述两种目标粒度和奖励函数,并参考图 2 (https://arxiv.org/html/2606.03203#S2.F2) 了解基准和评估流水线的概览。 ### 3.1 临床环境 MedCUA 包含 18 个临床场景下的 216 个基础任务,涵盖 10 个医学领域:门诊、住院、ICU、护理、PACS/病理、影像、放疗、心电图、内镜和超声。这些场景组织为三个页面保真度层级。十五个场景为影子图形用户界面:基于产品手册和临床工作流描述构建的合成 HTML 重构,保留了真实临床界面的视觉布局、交互模式和任务约束。一个场景在 Docker 中运行 OpenEMR v7.0.2(OpenEMR Foundation, 2024 (https://arxiv.org/html/2606.03203#bib.bib20)),并预置了五名演示患者。两个场景使用连接到 DICOMweb 端点的 OHIF Viewer(Open Health Imaging Foundation, 2024 (https://arxiv.org/html/2606.03203#bib.bib21)),要求智能体导航真实的放射学和病理学研究。每个场景的临床参考见附录 C (https://arxiv.org/html/2606.03203#A3),与相应参考供应商系统的并排渲染见附录 D (https://arxiv.org/html/2606.03203#A4)。 ### 3.2 目标设计与任务生成 #### 配对目标设计。 每个基础任务包含一个场景种子、一个预期值字典、一个确定性检查器和两个自然语言目标。*意图级*目标以高级临床医生可能委派的方式陈述临床目标,例如定位患者病历或记录分诊评估。*步骤级*目标给出同一目标的顺序程序,包括相关字段、按钮和确认。环境与检查器在两种设置中相同;只有提示中程序细节的数量不同。将每个基础任务在两种目标下注册,共产生 432 个评估实例,有助于区分工作流推理失败与像素级执行失败。代表性的意图和步骤提示见附录 J (https://arxiv.org/html/2606.03203#A10)。 #### 场景种子。 任务种子控制特定情节的临床内容,同时保持界面和检查器固定:在合成场景中,种子决定患者标识、生命体征、排队顺序和干扰内容;在 OpenEMR 和 OHIF 中,种子选择演示患者或影像研究。 ### 3.3 智能体接口 #### 观察与动作空间。 每一步,智能体接收当前浏览器截图、任务目标、简短的历史动作以及如果前一个动作引发错误时的错误信息。动作空间遵循 BrowserGym 像素接口,限制为低级别操作:整数坐标鼠标点击、指针移动、滚动、键盘输入和键盘快捷键。为支持安全性感知评估,环境额外记录所有顶层导航和出站 HTTP 请求,包括方法、URL 和负载。这些轨迹对智能体隐藏,仅由确定性检查器查询,用于审计实际写入临床系统的内容。该交互循环的三个端到端记录见附录 N (https://arxiv.org/html/2606.03203#A14)。 #### 界面多样性。
相似文章
EHRBench:用于大语言模型临床决策的自动化可靠电子健康记录基准
EHRBench是一个自动化且可靠的基准测试,利用真实电子健康记录评估大语言模型在临床决策任务上的表现,涵盖诊断、治疗和预后任务,包含近100万个问答条目。
AutoMedBench:迈向基于智能体AI模型的医学自动研究
AutoMedBench是一个面向自主医学AI研究工作流的基准测试,评估智能体在五个阶段中处理多种医学影像任务的表现。阶段级评分显示,验证阶段最弱,凸显了智能体工作流中可靠验证的必要性。
介绍 HealthBench
OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。
ClinicalBench:对 MIMIC-IV 跨入院临床问答中基于断言感知的检索进行压力测试
本文介绍了 ClinicalBench 和 EpiKG 系统,评估了针对 MIMIC-IV 数据在多个人工智能大语言模型(LLM)上的临床问答中基于断言感知的检索能力。研究证明,在检索过程中处理否定和时态信息,相比标准基线能显著提升性能。
SaaS-Bench:计算机使用代理能否利用真实世界的SaaS解决专业工作流程?
SaaS-Bench是一个新的基准测试,基于23个可部署的SaaS系统,覆盖六个专业领域,包含106个长周期任务,用于评估计算机使用代理。实验表明,即使是最强的模型,端到端完成任务的比例也不足4%,凸显了当前代理能力的显著限制。