CHI-Bench: AI智能体能否自动化端到端、长周期、政策密集的医疗工作流程?
摘要
本文介绍了CHI-Bench,这是一个用于评估AI智能体在需要基于政策的决策、多角色组合和多边交互的复杂医疗工作流程端到端自动化方面的基准。实验结果表明,最佳智能体仅实现了28%的任务解决率,突显了当前智能体在政策密集的企业领域中的能力差距。
arXiv:2605.16679v1 公告类型:新
摘要:现实医疗运营的端到端自动化强调了当前基准中未充分代表的三种能力:政策密度——决策必须基于大量医疗、保险和运营规则;多角色组合——单个任务要求智能体扮演多个角色并进行交接;以及多边交互——中间工作流程步骤是多轮对话,如同行评审和患者外联。我们引入了$\chi$-Bench,这是一个涵盖三个领域的长期医疗工作流程基准:提供者预先授权、支付者利用率管理和护理管理。每个任务在由87个MCP工具暴露的20个医疗应用的高保真模拟器中向智能体提供一个临床案例,智能体必须通过工具调用和编写角色制品将其驱动到终端状态,并遵循一份1290多页的管理式医疗运营手册技能。在30种智能体框架/模型配置中,最佳智能体仅解决了28.0%的任务,没有智能体在严格的pass^3上超过20%,并且在一个会话中执行所有任务时性能骤降至3.8%。这些结果引发了一个假设:类似的能力差距也可能出现在其他政策密集、角色组合、不可逆的企业领域。
查看缓存全文
缓存时间: 2026/05/19 06:35
# 人工智能代理能否实现端到端、长期期、政策密集的医疗工作流自动化? 来源:https://arxiv.org/html/2605.16679 Deon MetelskiactAVA\.ai (https://actava.ai/)Leon QiactAVA\.ai (https://actava.ai/)Tao XiaactAVA\.ai (https://actava.ai/)Joonyul LeeactAVA\.ai (https://actava.ai/)Steve BrownactAVA\.ai (https://actava.ai/)Kevin RileyactAVA\.ai (https://actava.ai/)Frank WangactAVA\.ai (https://actava.ai/)T\. Y\. Alvin Liu约翰霍普金斯医学院MD约翰霍普金斯医学院Hank CappsWellstar健康系统MDWellstar健康系统Zeyu Tang斯坦福大学Xiangchen Song卡内基梅隆大学Lingjing Kong卡内基梅隆大学Fan Feng加州大学圣地亚哥分校Tianyi Zeng耶鲁医学院Zhiwei LiuSalesforce AI研究组Zixian Ma华盛顿大学Hang Jiang东北大学Fangli Geng布朗大学Yuan Yuan波士顿学院Chenyu You石溪大学Qingsong Wen牛津大学Hua Wei亚利桑那州立大学Yanjie Fu亚利桑那州立大学Yue Zhao南加州大学Carl Yang埃默里大学Biwei Huang加州大学圣地亚哥分校Kun Zhang卡内基梅隆大学MBZUAICaiming Xiong递归超级智能Sanmi Koyejo斯坦福大学Eric P\. XingMBZUAICMUPhilip S\. Yu伊利诺伊大学芝加哥分校Weiran YaoactAVA\.ai (https://actava.ai/) ###### 摘要 现实医疗运营的端到端自动化对当前基准测试中代表性不足的三种能力提出了严峻挑战:**政策密度**——决策必须根植于庞大的医疗、保险和操作规则库;**多角色组合**——单个任务要求代理扮演多个角色并完成交接;**多边交互**——中间工作流步骤是多轮对话,如同行评审和患者外联。我们引入 **χ-Bench**,一个跨三个领域的长期医疗工作流基准:提供者预先授权、支付者利用审核和护理管理。每项任务在高保真模拟器中为代理提供一个临床案例,该模拟器包含20个医疗应用,通过87个MCP工具暴露,代理必须通过工具调用和编写角色工件的操作,在1,279份文档的**管理式医疗运营手册**技能指导下,驱动案例达到终止状态。在30种代理工具/模型配置中,最佳代理仅解决了28.0%的任务,无代理在严格 pass^3 标准下超过20%,并在单会话执行所有任务时性能骤降至3.8%。这些结果引发一个假设:类似差距很可能在其他政策密集、角色组合、不可逆的企业领域中出现。 参考图标题图1:χ-Bench:临床医疗现场环境与评估基准。 ## 1 引言 美国医疗系统是一个行政噩梦[11 (https://arxiv.org/html/2605.16679#bib.bib11),42 (https://arxiv.org/html/2605.16679#bib.bib42)]。**预先授权(PA)**,即提供者(如医院)为支付者(如保险公司)准备临床文件以证明某项服务或药物的合理性,是最常见但效率低下的工作流程之一[43 (https://arxiv.org/html/2605.16679#bib.bib43),45 (https://arxiv.org/html/2605.16679#bib.bib45),1 (https://arxiv.org/html/2605.16679#bib.bib1)]。**护理管理(CM)** 是一个长期的患者协助项目,遵循类似的路径[25 (https://arxiv.org/html/2605.16679#bib.bib25),10 (https://arxiv.org/html/2605.16679#bib.bib10),23 (https://arxiv.org/html/2605.16679#bib.bib23)]:转诊排队数周,员工花数小时联系患者,跨角色协调使护士陷入非本职工作。这些是**长期期、基于政策**的任务,每一次交接都可能成为停滞的环节。 人工智能代理越来越多地被提议用于协助或部分自动化此类工作。前沿代理已能支持数百次工具调用并持续执行数小时,自动化一年前还无法企及的长期任务。然而,**现实医疗工作流**的端到端自动化则讲述了一个不同的故事,提出了三个未被充分探索的挑战,有必要进行严格压力测试: 参考图标题图2:三个挑战的示意图:政策检索、多角色组合(接诊文员 → 护士 → 医学评审员 → 同行协调员)以及临床医生外联,所有环节均发生在一个利用管理任务中。更多示例见:https://actava.ai/benchmarks。 1) **政策密度**。每个代理决策必须基于政策,例如医学指南、保险规则、操作程序,这些政策在提供者和支付者之间各不相同且随时间变化。代理必须导航庞大的政策库,正确解释条件,并在长工具调用链中遵循它们。 2) **多角色组合**。端到端工作流被划分为若干角色,如临床医生、协调员、利用管理护士、医学主任和注册护士护理经理。代理必须拥有所有这些角色的领域知识,随着案例进展切换上下文和目标。交接是终结性的:一旦步骤提交或流转,就不能编辑或重新运行。 3) **多边交互**。某些步骤不是工具调用,而是多轮对话,例如支付者-提供者同行评审、信息请求、或护理经理联系患者。代理必须从后台执行切换到实时对话,从人类那里逐步收集信息,并将结果带回工作流。 这些挑战并非边缘案例;它们是管理式医疗运营的日常现实,其中大部分工作围绕预先授权、利用审核和护理管理展开。受此启发,我们引入 **χ-Bench**,一个评估前沿代理在这些真实、端到端医疗工作流环境中的基准。如图1 (https://arxiv.org/html/2605.16679#S0.F1)所示,每项任务在高保真模拟器中为代理提供一个案例(提供者PA、支付者UM审核或注册护士护理管理),该模拟器包含20个通过MCP暴露的医疗应用。代理必须通过工具调用和编写角色工件(提交包、评审笔记、信函、护理计划)驱动案例到终止状态,并受**管理式医疗运营手册**技能(1,279个markdown文件,涵盖工作流、平台使用和医疗/保险政策)指导。生成的世界状态、工件和事件轨迹由复合验证器进行**现场**评分,该验证器结合确定性检查和基于评分标准的LLM评审。 参考图标题图3:前沿专有LLM及其第一方代理工具在三个χ-Bench环境中的pass@1得分。误差线为任务级别百分位bootstrap 95%置信区间。 我们评估了覆盖主要前沿模型和强大代理堆栈的30种代理工具/模型配置。如图3 (https://arxiv.org/html/2605.16679#S1.F3)所示,χ-Bench远未解决。最佳配置 Claude Code + Claude Opus 4.6 在pass@1下仅解决28.0%的任务;无代理在严格pass^3可靠性指标下超过20%;而马拉松运行(代理在单会话中执行所有任务)降至3.8%,端到端提供者-支付者竞技场使最佳预先授权代理降至0%。这些结果表明,前沿代理在编码类基准上展现的长期能力并不能很好地泛化到现实医疗工作流,我们预计在其他政策密集、角色组合、不可逆的企业领域也存在类似差距。 参考图标题图4:Codex GPT-5.5和Claude Code Opus 4.6在PA、UM和CM领域中的优缺点比较。条形越高表示该检查失败次数越多。 ## 2 相关工作 ##### 医疗AI基准。先前的医疗基准评估以下之一:医学事实知识[20 (https://arxiv.org/html/2605.16679#bib.bib20),40 (https://arxiv.org/html/2605.16679#bib.bib40),21 (https://arxiv.org/html/2605.16679#bib.bib21),51 (https://arxiv.org/html/2605.16679#bib.bib51),56 (https://arxiv.org/html/2605.16679#bib.bib56),62 (https://arxiv.org/html/2605.16679#bib.bib62)];广泛的临床LLM能力[7 (https://arxiv.org/html/2605.16679#bib.bib7),5 (https://arxiv.org/html/2605.16679#bib.bib5)];EHR查询[29 (https://arxiv.org/html/2605.16679#bib.bib29),26 (https://arxiv.org/html/2605.16679#bib.bib26),48 (https://arxiv.org/html/2605.16679#bib.bib48),52 (https://arxiv.org/html/2605.16679#bib.bib52),53 (https://arxiv.org/html/2605.16679#bib.bib53)];短期临床代理[18 (https://arxiv.org/html/2605.16679#bib.bib18),44 (https://arxiv.org/html/2605.16679#bib.bib44),32 (https://arxiv.org/html/2605.16679#bib.bib32),58 (https://arxiv.org/html/2605.16679#bib.bib58)];或较窄的行政交互[18 (https://arxiv.org/html/2605.16679#bib.bib18),8 (https://arxiv.org/html/2605.16679#bib.bib8)]。χ-Bench是第一个在单个任务中结合了长期工具调用、显式密集政策检索、不可逆工作流状态、隐藏多边交互以及针对持久化模拟器状态的现场验证。HealthAdminBench[8 (https://arxiv.org/html/2605.16679#bib.bib8)]是最接近的同行,专注于通过像素/DOM浏览支付者门户的GUI交互;而χ-Bench则通过结构化MCP工具和大型显式政策手册技能暴露应用。我们还添加了包含患者外联的护理管理领域。 表1:29个医疗和长期代理基准的九项评估维度覆盖矩阵,描述了每个基准目标的任务表面;每个维度的定义和每个基准单元格的逐项理由见χ-Bench:人工智能代理能否实现端到端、长期期、政策密集的医疗工作流自动化?✓=支持,❍=部分支持,✗=不支持。 | 基准 | 医疗 | API工具 | 长期期 | 政策密度 | 多角色组合 | 多边交互 | 隐藏状态 | 现场 | LLM评审 | |---|---|---|---|---|---|---|---|---|---| | MedQA[20 (https://arxiv.org/html/2605.16679#bib.bib20)] | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | | MedMCQA[40 (https://arxiv.org/html/2605.16679#bib.bib40)] | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | | PubMedQA[21 (https://arxiv.org/html/2605.16679#bib.bib21)] | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | | BioASQ[51 (https://arxiv.org/html/2605.16679#bib.bib51)] | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | | MIRAGE[56 (https://arxiv.org/html/2605.16679#bib.bib56)] | ✓ | ❍ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | | MedCalc-Bench[26 (https://arxiv.org/html/2605.16679#bib.bib26)] | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | | EHRSQL[29 (https://arxiv.org/html/2605.16679#bib.bib29)] | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | | BioCoder[48 (https://arxiv.org/html/2605.16679#bib.bib48)] | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ❍ | ✗ | | BioDSBench[52 (https://arxiv.org/html/2605.16679#bib.bib52)] | ✓ | ✓ | ❍ | ✗ | ✗ | ✗ | ✗ | ❍ | ✗ | | EHRSHOT[53 (https://arxiv.org/html/2605.16679#bib.bib53)] | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | | MedHELM[7 (https://arxiv.org/html/2605.16679#bib.bib7)] | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ | | MedXpertQA[62 (https://arxiv.org/html/2605.16679#bib.bib62)] | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | | HealthBench[5 (https://arxiv.org/html/2605.16679#bib.bib5)] | ✓ | ✗ | ❍ | ✗ | ✗ | ❍ | ✗ | ✗ | ✓ | | MedAgentsBench[49 (https://arxiv.org/html/2605.16679#bib.bib49)] | ✓ | ❍ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | | AgentClinic[44 (https://arxiv.org/html/2605.16679#bib.bib44)] | ✓ | ❍ | ❍ | ✗ | ❍ | ✓ | ✓ | ✗ | ❍ | | MedChain[32 (https://arxiv.org/html/2605.16679#bib.bib32)] | ✓ | ✓ | ✓ | ✗ | ✗ | ❍ | ✓ | ✗ | ❍ | | MedAgentBench[18 (https://arxiv.org/html/2605.16679#bib.bib18)] | ✓ | ✓ | ❍ | ✗ | ✗ | ✗ | ✗ | ❍ | ✗ | | MedAgentGym[58 (https://arxiv.org/html/2605.16679#bib.bib58)] | ✓ | ✓ | ❍ | ✗ | ✗ | ✗ | ✗ | ❍ | ✗ | | HealthAdminBench[8 (https://arxiv.org/html/2605.16679#bib.bib8)] | ✓ | ✗ | ✓ | ❍ | ✓ | ✗ | ❍ | ✓ | ✓ | | SWE-Bench[19 (https://arxiv.org/html/2605.16679#bib.bib19)] | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ | ❍ | ✗ | | WebArena[61 (https://arxiv.org/html/2605.16679#bib.bib61)] | ✗ | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ | ❍ | ✗ | | OSWorld[55 (https://arxiv.org/html/2605.16679#bib.bib55)] | ✗ | ✗ | ✓ | ✗ | ✗ | ✗ | ✗ | ✓ | ✗ | | WorkArena[13 (https://arxiv.org/html/2605.16679#bib.bib13)] | ✗ | ✗ | ✓ | ❍ | ✗ | ✗ | ✗ | ✓ | ✗ | | AppWorld[50 (https://arxiv.org/html/2605.16679#bib.bib50)] | ✗ | ✓ | ✓ | ✗ | ❍ | ❍ | ❍ | ✓ | ✗ | | Terminal-Bench[33 (https://arxiv.org/html/2605.16679#bib.bib33)] | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ | ✓ | ✗ | | Toolathlon[30 (https://arxiv.org/html/2605.16679#bib.bib30)] | ✗ | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ | ✓ | ✗ | | SkillsBench[31 (https://arxiv.org/html/2605.16679#bib.bib31)] | ❍ | ✓ | ✓ | ❍ | ✗ | ✗ | ✗ | ✓ | ✗ | | τ/τ²-Bench[59 (https://arxiv.org/html/2605.16679#bib.bib59),6 (https://arxiv.org/html/2605.16679#bib.bib6)] | ✗ | ✓ | ✓ | ❍ | ❍ | ✓ | ✓ | ✓ | ✗ | | TheAgentCompany[57 (https://arxiv.org/html/2605.16679#bib.bib57)] | ✗ | ❍ | ✓ | ❍ | ❍ | ✓ | ❍ | ✓ | ❍ | | χ-Bench (本文) | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ##### 长期代理基准。通用基准涵盖GUI控制[61 (https://arxiv.org/html/2605.16679#bib.bib61),55 (https://arxiv.org/html/2605.16679#bib.bib55),13 (https://arxiv.org/html/2605.16679#bib.bib13)]、长期代码[19 (https://arxiv.org/html/2605.16679#bib.bib19),33 (https://arxiv.org/html/2605.16679#bib.bib33)]和广泛工具使用[50 (https://arxiv.org/html/2605.16679#bib.bib50),30 (https://arxiv.org/html/2605.16679#bib.bib30),31 (https://arxiv.org/html/2605.16679#bib.bib31)],但很少建模多角色工作流。τ/τ²-Bench[59 (https://arxiv.org/html/2605.16679#bib.bib59)]和TheAgentCompany[57 (https://arxiv.org/html/2605.16679#bib.bib57)]在交互结构上最接近,将代理与模拟利益相关者配对并受政策约束;两者均未针对医疗或定义预先授权的长期、政策密集、信息不对称特征。表1 (https://arxiv.org/html/2605.16679#S2.T1)的逐项细节见χ-Bench:人工智能代理能否实现端到端、长期期、政策密集的医疗工作流自动化?。 ## 3 χ-Bench:高保真医疗环境与基准 χ-Bench 在**现场**(χ)评估 AI 代理的**临床**医疗工作流,自动化美国提供者和支付者的**预先授权(PA)**、**利用审核(UM)**和**护理管理(CM)**任务。它涵盖三个长期领域,每个领域都需要在大型政策库中导航: (1) 提供者 PA 提交——验证覆盖范围、收集证据、提交包,并处理响应(信息请求、同行评审、申诉)直至终止状态; (2) 支付者 UM 审核——接收请求、检查计划政策、通过护士和医师评审员逐级上报,并发布裁决; (3) 注册护士护理管理——审查病历、联系患者、进行评估、撰写护理计划。 参考图标题图5:χ-World Engine:临床医疗现场工作的模拟世界。 ### 3.1 χ-World Engine:临床医疗现场工作的模拟世界 医疗工作流涉及四个利益相关方:**患者**、**临床医生(提供者)**、**支付者**和**护理管理**实体,一个忠实的基准必须代表每个实体及其交互。χ-World Engine (图5 (https://arxiv.org/html/2605.16679#S3.F5)) 是一个本地、高保真的模拟器,包含20个日常医疗应用,通过3个MCP服务器的151个REST API和87个MCP工具可操作,填充了约5,000个病历活动,涉及50个模拟患者和约90名医疗工作者。代理通过MCP服务器、本地数据库和文件系统自主操作应用。 #### 3.1.1 真实医疗软件环境 我们实现这些应用1(使用FastAPI、SQLite、SQLModel和基于可流式HTTP的MCP。)涵盖三个领域:**提供者PA**、**支付者UM**和**护理管理**。模拟器用约115K行Python构建,捕获了通用基准中缺失的特性:具有29种状态和显式合法转换的案例状态机;护士、医学主任和同行评审之间的评审者独立性约束;特定渠道的提交语义;以及文档撰写、签署和FHIR级就诊关联。操作触发跨应用一致且原子化的效果:提供者端提交会生成支付者接收记录,推进事件日志,并可能产生分派任务、待处理通知和发出的信函。 参考图标题图6:三个任务领域的医疗应用。(a) 支付者 – 利用审核(10个应用);显示:护士临床评审。(b) 提供者 – 预先授权(5个应用);显示:服务请求步骤。(c) 人群医疗 – 护理管理(5个应用);显示:患者外联。 我们将151个后端API中的87个暴露为MCP工具,手动选择
相似文章
AutoMedBench:迈向基于智能体AI模型的医学自动研究
AutoMedBench是一个面向自主医学AI研究工作流的基准测试,评估智能体在五个阶段中处理多种医学影像任务的表现。阶段级评分显示,验证阶段最弱,凸显了智能体工作流中可靠验证的必要性。
介绍 HealthBench
OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。
AI代理能否在没有人类干预的情况下切实自动化复杂工作流程?
关于AI代理是否能在没有持续人工监督的情况下可靠地自动化复杂、多步骤工作流程的讨论,询问当前的限制和经验。
用代理式AI重振全球医疗的人性化
医疗保健提供者正转向代理式AI,实现复杂任务自动化,减轻临床医生倦怠,改善患者预后,如HSS利用AI代理处理保险理赔和患者分诊所示。
SaaS-Bench:计算机使用代理能否利用真实世界的SaaS解决专业工作流程?
SaaS-Bench是一个新的基准测试,基于23个可部署的SaaS系统,覆盖六个专业领域,包含106个长周期任务,用于评估计算机使用代理。实验表明,即使是最强的模型,端到端完成任务的比例也不足4%,凸显了当前代理能力的显著限制。