MedBench v5:面向临床多模态模型的动态、过程导向且具有幻觉感知能力的基准测试

arXiv cs.CL 论文

摘要

MedBench v5 是一个面向临床多模态模型的动态、过程导向的基准测试,集成了幻觉检测和压力测试,超越静态问答,评估在信息流压力下的推理和稳定性。

arXiv:2606.24155v1 Announce Type: new 摘要:现有的医学AI基准测试缺乏过程可见性、原子技能评估和整合的幻觉检测。我们提出MedBench v5,这是一个重新设计的临床多模态模型(语言、视觉语言和智能体系统)基准测试,从静态问答转向动态、过程导向的评估。MedBench v5的特点包括:(1)双维度框架,结合临床认知响应性(14个子维度)和医学原子技能(4个智能体环境),涵盖63个任务;(2)三种可切换的信息流压力因素(遗漏、矛盾、证据延迟),用于分解退化分析;(3)包含五个推理节点的动态过程审计协议,生成模型特定的失败指纹;(4)幻觉传播监测,涵盖起始、传播、锚定和矛盾交互——捕捉沉默幻觉。在前沿模型上的实验表明,强大的整体任务性能并不能保证过程稳定性:压力因素主要破坏矛盾检测、诊断更新、幻觉传播和基于矛盾的自我纠正,而最终证据根基可能表面上保持稳定。MedBench v5为临床AI评估中的能力剖析、可控压力测试、过程审计和幻觉轨迹分析提供了统一的基础设施。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:45

# MedBench v5:面向临床多模态模型的动态、过程导向与幻觉感知基准
来源:https://arxiv.org/html/2606.24155 \\keepXColumns  
丁金如江楚楚共同第一作者。邮箱:[email protected]上海人工智能实验室  
陆璐共同第一作者。邮箱:[email protected]上海人工智能实验室  
庞文娆上海人工智能实验室  
卞谋晓上海人工智能实验室  
高壮志上海人工智能实验室  
陈江源上海人工智能实验室  
彭新伟上海人工智能实验室  
陈瑞瑶上海人工智能实验室  
任思捷上海人工智能实验室  
卢仁杰上海人工智能实验室  
韩斌上海人工智能实验室  
刘美玲上海人工智能实验室  
徐杰通讯作者。[email protected]上海人工智能实验室  

###### 摘要  
现有医学AI基准缺乏过程可见性、原子技能评估以及集成幻觉检测。我们提出MedBench v5,一个重新设计的面向临床多模态模型(语言、视觉-语言及智能体系统)的基准,从静态QA转向动态、过程导向的评估。MedBench v5特点包括:(1)一个双重维度框架,结合临床认知响应性(14个子维度)和医学原子技能(4个智能体环境),覆盖63项任务;(2)三个可切换的信息流压力源(遗漏、矛盾、证据延迟),用于因子化退化分析;(3)一个包含五个推理节点的动态过程审计协议,可生成模型特定的失败特征指纹;(4)幻觉传播监控,涵盖启动、传播、锚定和矛盾交互——捕获无声幻觉。在前沿模型上的实验表明,强整体任务性能并不能保证过程稳定性:压力源主要破坏矛盾检测、诊断更新、幻觉传播以及基于矛盾的自我修正,而最终证据基础可能表面稳定。MedBench v5为临床AI评估中的能力剖析、可控压力测试、过程审计和幻觉轨迹分析提供了统一基础设施。  
*关键词* 多模态模型评估,信息流压力源,过程审计协议,幻觉传播监控,临床AI基准

## 1 引言  
大型语言模型和多模态基础模型在医学应用中展现出日益增长的潜力,包括在线预诊、临床记录、智能随访、患者教育、医学问答和临床决策支持(Singhal et al., 2023 (https://arxiv.org/html/2606.24155#bib.bib51); Jung, 2025 (https://arxiv.org/html/2606.24155#bib.bib53); Liu et al., 2024 (https://arxiv.org/html/2606.24155#bib.bib54); song2025large; Aydin et al., 2024 (https://arxiv.org/html/2606.24155#bib.bib55); Acosta et al., 2022 (https://arxiv.org/html/2606.24155#bib.bib50); Moore et al., 2023 (https://arxiv.org/html/2606.24155#bib.bib52))。然而,真实的临床实践并非静态问答任务。它本质上是动态且迭代的:医生必须在不确定下推理,主动挖掘缺失病史,协调矛盾证据,更新诊断假设,并在新信息可用时做出顺序决策(Sooknanan and Seemungal, 2019 (https://arxiv.org/html/2606.24155#bib.bib3); Ball et al., 2015 (https://arxiv.org/html/2606.24155#bib.bib4); Meyer et al., 2021 (https://arxiv.org/html/2606.24155#bib.bib5); Weinstein et al., 2017 (https://arxiv.org/html/2606.24155#bib.bib56); Thampy et al., 2019 (https://arxiv.org/html/2606.24155#bib.bib57); McCoy et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib58))。相比之下,大多数医学LLM基准主要采用静态、单轮问答范式,模型接收完整病例描述或考试风格提示,并产生单一最终答案。代表性例子包括MedQA(Zhang and Chung, 2021 (https://arxiv.org/html/2606.24155#bib.bib59))、CMExam(Liu et al., 2023 (https://arxiv.org/html/2606.24155#bib.bib15))、MedMCQA(Pal et al., 2022 (https://arxiv.org/html/2606.24155#bib.bib60))和CBLUE(Zhang et al., 2022 (https://arxiv.org/html/2606.24155#bib.bib16))。尽管这些基准在衡量医学知识、语言理解和考试式推理方面发挥了重要作用,但它们提供的证据有限,难以判断模型能否在真实的临床工作流中安全运行(Kim and Yoon, 2025 (https://arxiv.org/html/2606.24155#bib.bib62); Sun et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib63); Bielicki et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib64))。近期研究越来越强调静态基准性能与临床就绪性之间的这种不匹配(Jiang et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib2); Chen et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib65); Wu et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib66))。例如,系统证据表明存在持续的知识-实践差距:在基于知识的医学考试中表现优异的模型,可能在面向实践或安全关键任务上表现差得多(Gong et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib1))。类似地,当评估从静态病例转向多轮或基于智能体的临床交互时,诊断性能可能显著下降,暴露出单轮问答评估隐藏的失败(Sangwon et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib7); Schmidgall et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib6))。认识到这些限制,最近的基准开始转向实践导向和交互式评估(Liu et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib69))。一条工作线引入了多轮诊断对话任务,其中模型必须主动提问、收集缺失信息,并决定何时收集到足够证据。诸如MediQ(Li et al., 2024 (https://arxiv.org/html/2606.24155#bib.bib35))、Q4Dx(Werthaim et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib17))和VivaBench(Chiu et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib19))等基准评估模型是否能进行顺序信息寻求,而不仅仅是回答完全指定的提示。另一条工作线研究在不完整、隐藏或对抗性患者信息下的鲁棒性。例如,MedConceal(Han et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib68))评估医学对话中的隐藏关切推理,而MedDialBench(Luo et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib67))检查在参数化控制的非合作患者行为下的诊断鲁棒性。同时,智能体模拟环境(Liu et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib70))如MedAgentBench(Jiang et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib22))、AgentClinic(Schmidgall et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib6))、ClinEnv(Lu et al., 2026b (https://arxiv.org/html/2606.24155#bib.bib20))和MeDxAgent(Sanghvi et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib18))将模型嵌入更真实的临床工作流(Yan et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib71)),要求它们检索信息、与模拟患者或电子健康记录交互、咨询工具或专科智能体,并执行顺序临床操作。随着医学LLM接近部署,安全评估也变得越来越重要(Asgari et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib72); Roustan and Bastardot, 2025 (https://arxiv.org/html/2606.24155#bib.bib73))。特别是,幻觉是临床环境中的关键风险,因为无根据或捏造的主张可能看似合理,却导致不安全的诊断或治疗决策(Zhu et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib26); Kim et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib74))。现有的幻觉导向基准,包括Med-HALT(Pal et al., 2023 (https://arxiv.org/html/2606.24155#bib.bib27))、MedHallu(Pandit et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib28))以及多模态基准如Med-HallMark(Chen et al., 2024 (https://arxiv.org/html/2606.24155#bib.bib32))和MedVH(Gu et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib33)),评估模型能否检测或避免医学回答中的事实不准确。这些努力提供了衡量事实可靠性的宝贵工具,尤其是在回答或最终答案层面。尽管取得了这些进展,现有的实践导向基准在本质上仍然是观察性的,而非诊断性的(Chen et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib65))。它们能够揭示模型在交互式或安全关键设置中性能下降,但往往无法解释退化发生在何处以及为何发生(Sun et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib63); Zhou et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib76); Wang et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib77))。我们识别出四个关键局限。第一,许多基准仍然依赖端到端的最终结果分数,难以将失败定位到特定的推理阶段,如识别缺失信息、提出合适的后续问题、检测矛盾、更新诊断或基于证据确凿结论(Qiu et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib75))。第二,尽管近期交互式基准引入了不完整或对抗性信息,但很少提供可控的信息流设计,系统化地切换遗漏、矛盾和延迟,以区分一般任务难度和特定的认知失败模式(Li et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib78); Yan et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib79))。第三,现有评估往往未明确指定临床AI系统所需的原子操作技能,例如在可执行或沙盒环境中进行结构化数据操作(Shi et al., 2024 (https://arxiv.org/html/2606.24155#bib.bib80))、检索增强推理(Xiong et al., 2024 (https://arxiv.org/html/2606.24155#bib.bib81))、长距离研究综合(Huang et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib82))和对抗性安全防御(Zhang et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib83))。第四,幻觉评估通常被当作一个独立的事实性任务,与主要的临床推理轨迹脱钩(Asgari et al., 2025 (https://arxiv.org/html/2606.24155#bib.bib72))。因此,现有基准很少追踪无根据的事实如何出现、在轮次间持续存在、与矛盾交互,并最终污染最终诊断结论(Lu et al., 2026a (https://arxiv.org/html/2606.24155#bib.bib84); Yang et al., 2026 (https://arxiv.org/html/2606.24155#bib.bib85))。为弥补这些空白,我们提出MedBench v5,一个面向临床多模态模型评估的整体基准,从静态QA转向动态、过程导向且幻觉感知的评估。MedBench v5结合了一个双重维度能力框架与一个压力-审计-追踪协议,同时实现广泛的能力覆盖和细粒度的失败归因。具体而言,MedBench v5引入了四个关键组件:

- **双重维度评估框架**:我们沿着两个互补维度组织临床模型评估:临床认知响应性(CCR)和医学原子技能(MAS)。CCR涵盖14个临床能力维度,涉及医学QA、自然语言理解与生成、临床推理、多模态感知、决策支持、交互、记忆、工具使用、安全性和多智能体协作。MAS进一步实例化了四个可执行的基于智能体的环境——DataAgent、RAGAgent、DeepResearch和SafetyAgent——以评估结构化数据交互、检索增强生成、长距离证据综合和对抗性安全防御。这些维度共同定义了跨63项临床任务的18个能力领域。

- **可切换的信息流压力源**:我们设计了三个独立可切换的压力源——信息遗漏、矛盾注入和证据延迟——以系统性地扰动临床信息流。通过比较无压力、单压力源和多压力源条件,该设计能够将性能退化可控地归因于特定的信息流中断,而不是将交互困难视为无差别的错误源。

- **动态五节点过程审计**:我们建立了一个五节点审计协议,评估模型在信息缺口检测、后续策略、矛盾检测、诊断更新和证据基础五个方面的行为。该审计不仅对最终答案评分,还记录过程级的行为轨迹,并为每个模型生成推理失败画像,揭示在不同压力条件下临床推理链在何处断裂。

- **幻觉传播监控**:作为五节点审计的补充,我们在整个多轮轨迹中监控幻觉传播。该模块追踪四个渐进维度——启动、传播、锚定和幻觉-矛盾交互——以量化无根据主张首次出现的时间、它们是否持续存在或交叉污染后续推理、是否锚定在最终诊断证据链中,以及显式矛盾是否抑制或诱发进一步的捏造。

通过整合广泛的能力评估、可执行的原子技能测试、可控的信息流压力源、过程级审计和轨迹级幻觉监控,MedBench v5为医学LLM和多模态临床AI系统提供了一个临床扎根且诊断透明的基准。MedBench v5不仅询问模型是否产生了正确的最终答案,还评估答案是如何得出的、推理过程在何处失败,以及无根据信息如何在真实的临床不确定性下传播。

参考图注  
图1:MedBench v5评估框架概览。MedBench v5组织为两个互补维度。左侧面板总结了临床认知响应性(CCR),涵盖14个临床能力维度,包括基于语言的推理、多模态感知与决策支持、智能体交互、记忆、工具使用、安全性和多智能体协作。右侧面板呈现医学原子技能(MAS),实例化了四个可执行的基于智能体的评估环境:DataAgent用于临床数据查询、RAGAgent用于检索增强的医学问答、DeepResearch用于长距离证据综合、SafetyAgent用于对抗性安全评估。CCR和MAS共同定义了跨63项临床任务的18个能力领域,并为评估临床多模态模型提供了一个整体基准。

## 2 方法  
为超越传统的静态评估,我们提出了一个统一的临床多模态模型评估的过程诊断协议。该方法包括两个层面。首先,我们引入了一个双重维度评估框架,定义了MedBench v5的能力空间。

相似文章