衡量关键指标:医疗保健中生成式、多模态及智能体AI的基准测试
摘要
本文提出了一个针对医疗保健领域生成式、多模态及智能体AI进行基准测试的结构化框架,旨在解决高基准得分与实际临床可靠性、安全性和相关性之间的差距。
arXiv:2605.08445v1 公告类型:新论文
摘要:AI模型日益被部署于真实的临床环境中,它们必须在复杂且高风险的工作流中可靠地运行,而标准的训练和验证数据集从未旨在捕捉这些场景。评估这些系统需要基准测试:即由任务、数据集和指标构成的结构化组合,能够以可复现和可比较的方式衡量模型的能力。医疗保健AI面临的核心挑战不仅在于性能本身,更在于缺乏系统性的方法来衡量模型在真实世界条件下的可靠性、安全性和临床相关性。大多数现有基准测试主要检验模型的知识储备;极少有基准测试能够检验模型在面对真实临床任务的全部复杂性时,能否可靠执行且不出现故障。当前的基准测试是通过针对狭窄任务性能优化的临时性数据集构建而积累起来的:前沿模型在医学执照考试等基准上取得了近乎完美的分数,但当在真实临床任务中进行评估时,其性能急剧下降,在文档处理任务上的得分为0.74-0.85,在临床决策支持任务上的得分为0.61-0.76,而在行政和工作流任务上的得分仅为0.53-0.63 \cite{medhelm}。高基准分数给人一种部署准备就绪的错觉,而随着AI系统在临床中承担的角色愈发关键,性能与实际效用之间的差距反而进一步扩大。如果没有原则性的基准设计框架,该领域将无法判断较差的临床表现是反映了模型本身的局限性,还是源于性能衡量方式的缺陷。
查看缓存全文
缓存时间: 2026/05/12 07:14
# 衡量真正重要的事物:医疗保健中生成式、多模态及代理式 AI 的基准测试 来源: https://arxiv.org/html/2605.08445 人工智能模型正越来越多地部署在实时临床环境中,它们必须在复杂的、高风险的工作流程中可靠运行,而标准的训练和验证数据集从未被设计用于捕捉这些流程。评估这些系统需要基准测试:由任务、数据集和指标构成的结构化组合,能够以可重现、可比较的方式衡量模型的能力。医疗保健 AI 的核心挑战不仅仅在于性能本身,更在于缺乏在现实条件下系统性衡量可靠性、安全性和临床相关性的方法。大多数现有基准测试仅检验模型“知道”什么;很少有基准测试能检验模型在真实临床任务的完整复杂性中是否能在不失效的情况下可靠执行。目前的基准测试是通过为狭窄任务性能优化的临时数据集构建而积累起来的:前沿模型在医学执照考试中取得了近乎完美的分数,但在针对真实临床任务的评估中,性能急剧下降,在文档记录任务上的得分仅为 0.74–0.85,在临床决策支持任务上为 0.61–0.76,而在行政和流程任务上仅为 0.53–0.63\[1 (https://arxiv.org/html/2605.08445#bib.bib1)\]。高昂的基准分数给人一种部署就绪的虚假安全感,而性能与实用价值之间的差距恰恰在 AI 系统承担更重要的临床角色时不断扩大。如果没有原则性的基准设计框架,该领域将无法判断较差的临床表现是反映了模型的局限性,还是性能衡量方式的失败。 这种性能退化是一个测量问题,而不仅仅是模型问题,且医疗保健 AI 基准测试缺乏正式的设计理论。对 53 个医疗 AI 基准进行的系统性元评估发现,94% 的基准不包含测试模型鲁棒性的机制,96% 不评估模型处理不确定性的能力,92% 未解决数据污染问题——即评估数据出现在模型的训练语料库中,导致分数反映的是记忆而非真正的能力\[2 (https://arxiv.org/html/2605.08445#bib.bib2)\]。近期如 MedThink-Bench 等工作强调了在传统问答基准之外,对专家级医学推理进行结构化评估的需求\[3 (https://arxiv.org/html/2605.08445#bib.bib3)\],更广泛的视角也开始将基准测试本身定位为一种需要动态、持续演进评估框架的科学学科\[4 (https://arxiv.org/html/2605.08445#bib.bib4)\]。在基准构建中让临床医生结构化地参与至关重要,以确保所测量的能力反映实际的临床推理、工作流程优先级以及实践中所需的判断力。缺乏领域专家输入设计的任务,往往倾向于优化方便且可测量的内容,而非具有临床意义的内容,从而产生无论模型得分如何高,都无法可信地评估部署就绪性的基准。 本教程直接解决了这一空白。我们提出了一个基于成熟度感知任务设计、多指标评估原则以及严格的基准工程生命周期的结构化框架,旨在指导下一代医疗保健 AI 基准在护理交付、数字健康和临床 AI 环境中的开发。它还解决了临床主观性问题,特别是在专家分歧固有的高急性度任务中,通过注释方法和指标设计来处理这一问题,而不是将其视为需要消除的噪声。本教程的范围仅限于临床和操作 AI 评估。它不涉及基于索赔的基准测试、付款人精算建模、药物试验评估、药物发现或分子建模框架,因为这些领域需要不同的验证和监管方法。 本教程的核心是一个基于成熟度的分类法,反映了系统在临床运营中承担的责任水平,如图1所示 (https://arxiv.org/html/2605.08445#S0.F1)。第1级(L1):记录和沟通的系统,捕获和总结临床信息。第2级(L2):检测和解释的系统,从包括成像、音频和生理传感器在内的结构化和非结构化数据中识别具有临床意义的信号。第3级(L3):行动和协调的系统,指导分诊、转诊和护理决策,并在某些情境中与设备驱动或闭环流程交互。近期对医学语言模型的全方位评估证据揭示了一个一致的梯度:性能在 L1 最强,在 L3 最弱,而这恰恰是风险最高的地方\[1 (https://arxiv.org/html/2605.08445#bib.bib1),2 (https://arxiv.org/html/2605.08445#bib.bib2)\]。任务风险与模型可靠性之间的这种反比关系,使得基于成熟度的评估不仅仅是一种最佳实践,更是一种临床必要性。 本教程映射了日益复杂的医疗保健 AI 应用程序的评估要求,涵盖临床信息提取、多模态医学推理、不确定性下的顺序决策制定以及基于代理的临床工作流程模拟。该框架并非规定固定的分类法,而是确定了每个应用类别在数据集构建、指标设计、注释和领域专家验证方面引入的独特要求。来自作者研究的两个实证案例研究——一个大规模医学音频推理基准和一个在实时电子健康记录(EHR)环境中运行的面向医疗 AI 代理的动作基础推理基准(ART)\[5 (https://arxiv.org/html/2605.08445#bib.bib5)\]——将该框架落地于实践,并说明了能够解决已识别的系统性空白的基准设计原则。这些案例研究直接操作化了该领域目前缺乏的三个评估维度:跨越任务、人群和数据完整性变化的鲁棒性;跨越模型层面和注释层面模糊性的不确定性处理;以及通过源控制、任务格式新颖性和跨系统泛化性测试来减轻数据污染。 表 I:教程结构和内容概述 在 ART 中,任务变异测试相同临床推理能力在不同 EHR 行动类型(如实验室订单与药物订单)中的表现。人群变异在不同患者人口统计学特征(包括年龄和性别)中呈现相同的临床状况。数据完整性变异通过设计压力测试引入缺失的实验室结果或生命体征,以区分那些适当表达不确定性的模型与产生幻觉的模型。 医学音频推理基准中的注释方法区分了两种情况:一是模型缺乏足够信息,应产生经过校准的“我不知道”响应;二是临床问题本身没有唯一正确答案。前者通过多数投票注释处理,后者通过资深临床医生裁决解决。此外,通过来自单一医疗系统的去标识化病例以及跨不同区域 EHR 数据集的跨系统泛化性测试来进一步控制污染,其中性能退化表明是特定系统的记忆而非真正的临床推理。 表 I (https://arxiv.org/html/2605.08445#S0.T1) 总结了五部分教程的组织结构及各部分涵盖的主要主题。 该框架旨在直接实施,教程通过基准工程生命周期和实证案例研究展示了这一点。涵盖设计、数据集构建、技术实现、有效性验证和治理的五阶段生命周期,为构建和审计医疗保健基准提供了结构化方法。两个实证案例研究端到端地实例化了该框架:L3 级别的 ART 和 L2 级别的医学音频推理基准,每个案例都详细介绍了任务设计、数据集构建和指标选择。第三部分将该框架作为差距检测工具,对照提出的设计要求对现有基准进行审计。完整的实施细节和设计决策 walkthrough 将在教程演示期间展示。 参会者将掌握一种实用方法,用于将真实的医疗保健问题转化为可基准化的评估任务;设计包括音频和传感器数据在内的多模态数据集;选择反映安全性和运营影响的指标;应用医疗基准工程生命周期框架来审计现有或开发中的基准;以及在监管和部署背景下解读基准结果。 临床笔记 · 摘要 · EHR 文档 L1 - 记录与沟通 成像 · 音频 · 生理信号 L2 - 检测与解释 分诊 · 转诊 · 护理决策 L3 - 行动与协调 基准复杂性增加 L1 L3 图 1:L1–L3 成熟度分类法。系统从 L1 的记录和沟通开始,经过 L2 的检测和解释,发展到 L3 的主动护理协调。随着临床风险的增加和模型可靠性的降低,基准复杂性随成熟度水平成比例增加。通过基于成熟度水平和应用领域来奠定评估基础,本教程为评估生成式模型、多模态代理和嵌入式临床 AI 系统提供了一个前瞻性的框架——并帮助理解当前基准尚无法看清的内容。 ## 作者简介 Prasanna Desikan 是 Centific 的医疗保健 AI 研究主管。他曾担任多个医疗保健垂直领域的 senior 领导职位。他在过去几年中担任 ICHI 的行业轨道主席,并领导了多项推动医疗保健 AI 发展的教程。 Harshit Rajgarhia 是 Centific AI Research 的首席研究科学家,他领导一个团队为主要企业客户构建 AI 系统。他的研究兴趣包括多模态学习、医学 AI 推理和强化学习,并在 VLDB、NeurIPS 和 ICCV 上发表过论文。 Shivali Dalmia 是 Centific AI Research 的高级 AI 研究解决方案工程师,她构建了可扩展的人机回环(Human-in-the-Loop)基准测试管道。她的研究涵盖临床决策和基准测试的 AI 模型,并在 AAAI、NeurIPS、ICCV 和 ICDM 上发表过论文。 Ananya Mantravadi 是 Centific AI Research 的 AI 研究工程师,她的工作重点包括医疗保健中的强化学习、AI 评估和多智能体系统。她的发表记录包括医疗 AI 代理基准测试、生理信号分析和多智能体框架,发表 venue 包括 AAAI、NeurIPS 和《系统架构杂志》(Journal of Systems Architecture)。 ## 参考文献 - [1] Bedi, Suhana, et al. ”Medhelm: Holistic evaluation of large language models for medical tasks.” arXiv preprint arXiv:2505.23802 (2025). - [2] Ma, Zizhan, et al. ”Beyond the leaderboard: Rethinking medical benchmarks for large language models.” arXiv preprint arXiv:2508.04325 (2025). - [3] S. Zhou et al., “Automating expert-level medical reasoning evaluation of large language models,” Nature Machine Intelligence, vol. 7, no. 12, pp. 1102–1115, Dec. 2025, doi: 10.1038/s42256-025-07988-x. - [4] M. Z. Ma, M. Saxon, and X. Yue, “The Science of Benchmarking: What’s Measured, What’s Missing, What’s Next,” in Proc. 39th Conf. Neural Information Processing Systems (NeurIPS) Tutorials, San Diego, CA, USA, Dec. 2025. - [5] Mantravadi, A., Dalmia, S., and Mukherji, A., ”ART: Action-based Reasoning Task Benchmarking for Medical AI Agents.” arXiv preprint arXiv:2601.08988 (2026).
相似文章
有基准却无度量——生成式人工智能应以现实效用为评估标准
本文主张生成式人工智能的评估应从静态基准转向衡量现实效用和人类成果。文章提出了 SCU-GenEval 框架及辅助工具,旨在解决基准表现与部署成功之间的脱节问题。
介绍 HealthBench
OpenAI 推出了 HealthBench,这是一个用于评估医疗保健环境中人工智能系统的新基准。该基准由来自 60 个国家的 262 名医生共同创建,包含 5,000 个逼真的健康对话和医生编写的评分标准,用于评估模型在有意义、可信和可改进的指标上的性能。
AI模型构建者的不稳定指标与基准测试文化
本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。
神经数据不再无聊:代理型AI在数据复用中的基准测试
本文对代理型AI系统在加载、理解和重新格式化碎片化的神经科学数据任务上进行基准测试,发现尽管代理在子任务上表现良好,但很少能实现完全无错误的端到端解决方案,人工监督仍然必要。
生成式人工智能模型代际间认知能力的不均衡演化
本文提出了一种心理测量框架及 AIQ 基准测试,用于评估生成式人工智能模型的认知特征,揭示了其演化过程的不均衡性:言语能力表现强劲,但知觉推理能力停滞不前。