IMCBench:面向图像基础医疗对话的多模态大语言模型基准

arXiv cs.AI 论文

摘要

IMCBench是一个新的基准,用于评估多模态大语言模型在图像基础医疗对话中的表现,它将临床图像与合成患者档案配对。在安全性、准确性和不确定性方面的评估表明,即使是像Claude Opus 4.6这样强大的模型也存在安全问题,凸显了多维度评估的必要性。

arXiv:2606.28556v1 公告类型:新 摘要:近期大语言模型和视觉-语言模型的进展使得对多模态数据进行推理成为可能,为临床决策支持与分诊等应用提供了机遇。然而,现有的医学AI基准存在碎片化问题:一些支持多轮对话但缺乏图像,另一些提供多模态输入但聚焦于单轮问答任务。为弥补这一空白,我们引入了IMCBench——一个基于图像的多轮医疗对话基准,将真实公开的临床图像与合成患者档案配对,以模拟真实的医患互动。每个对话从三个临床维度进行评估:安全性、准确性以及在诊断中合理使用不确定性。我们对四个模型家族(Claude、GPT、Nova和Llama)中的八个多模态前沿模型进行了基准测试,使用经过临床专家标注校准的LLM-as-Jury评分方法,按1-5分进行评分。结果显示,Claude Opus 4.6取得了最高总分(3.61),其次是Claude Sonnet 4.6(3.30)和GPT-5.2(3.29),但没有任何模型在所有维度上占据主导地位,且针对恶性与罕见疾病的安全性均有所下降(各$\Delta$ = -0.27)。消融实验进一步表明,视觉输入和EHR情境信息都有助于安全指导(当分别移除时,安全评分平均下降0.18和0.23),且更强模型能更有效利用视觉特征。综合这些发现表明,准确的临床描述并不能保证安全的患者指导,这推动了在医学AI中采用多维度评估框架的需求。
查看原文
查看缓存全文

缓存时间: 2026/06/30 05:31

# IMCBench:面向图像驱动医疗对话的多模态大语言模型基准测试

来源:https://arxiv.org/html/2606.28556
Maria Xenochristou, Ashutosh Joshi, Korosh Vatanparvar, Mohammad Abuzar Hashemi, Prasad Kasu, Deepak Bansal, Anchal Nema, Nivedita Wadhwa, Prashams S Jain, Rebecca Abraham, Will Kimbrough, Dilek Hakkani-Tur, Wilko Schulz-Mahlendorf

11institutetext:Amazon Health AI
11email:mxenoc@amazon\.comAshutosh Joshihttps://orcid.org/0009-0009-5945-2312Korosh VatanparvarMohammad Abuzar HashemiPrasad KasuDeepak BansalAnchal NemaNivedita WadhwaPrashams S JainRebecca AbrahamWill KimbroughDilek Hakkani\-TurWilko Schulz-Mahlendorf

###### 摘要

大语言模型和视觉-语言模型的最新进展使其能够对多模态数据进行推理,为临床决策支持和分诊等应用提供了机会。然而,现有的医疗AI基准测试较为分散:有些支持多轮对话但缺乏图像,另一些则提供多模态输入但专注于单轮问答任务。为填补这一空白,我们引入了IMCBench,一个以图像为支撑、多轮医疗对话的基准测试,将真实的公开临床图像与合成患者档案配对,以模拟真实的患者-临床医生互动。每次对话在三个临床维度上进行评估:安全性、准确性以及诊断中不确定性使用的恰当性。我们评估了来自四个模型家族(Claude、GPT、Nova 和 Llama)的八个前沿多模态模型,使用经专家临床医生注释校准的LLM-as-Jury评分方法,对每个模型进行1-5分评分。我们的结果显示,Claude Opus 4.6 获得了最高总分(3.61),其次是 Claude Sonnet 4.6(3.30)和 GPT-5.2(3.29),但没有任何模型在所有维度上占优,且安全性能在恶性和罕见疾病上均有所下降(下降值均为 Δ=−0.27)。消融研究进一步揭示,视觉输入和EHR背景信息均有助于产生安全的指导(当分别移除两者时,安全性能平均下降 0.18 和 0.23),更强的模型能更有效地利用视觉特征。这些发现共同表明,准确的临床描述并不能保证安全的患者指导,这激发了在医疗AI中采用多维度评估框架的必要性。

## 1 引言

大语言模型(LLMs)和视觉-语言模型(VLMs)为人工智能在医疗健康领域带来了新的机遇[12, 11, 14, 8]。医疗AI助手涵盖广泛,从面向消费者的提供一般健康信息的聊天机器人[10]到临床决策支持系统[9]。这些模型能够对文本和视觉数据进行推理,从而支持分诊、远程会诊以及医学图像的自动解读等应用。患者与AI助手之间富有建设性、安全且临床准确的对话可以有效改善健康结局,而不安全或不准确的回答则可能延误适当的治疗。然而,尽管事关重大,针对图像驱动医疗对话的严格评估基准仍较为分散,现有工作在三个关键维度上存在不足。首先,大多数基准仅涉及单一模态:纯文本基准[1, 6]支持多轮咨询,但完全忽略了视觉信息;而纯图像诊断基准[17, 3]则孤立地评估医学图像理解能力,缺乏患者文本或对话上下文。另一方面,医学视觉-语言基准[21, 7, 4]虽然结合了图像,但通常被设计为单轮问答任务,脱离了医学图像自然出现的对话环境;而实际的患者-医生沟通是在多轮交互中展开的,需要持续的推理和上下文追踪。

最近的一些工作尝试将多模态输入与多轮对话结合起来。然而,这些基准要么面向提供者的临床决策支持[20],要么依赖非结构化的患者病史而非结构化EHR[16],要么使用有限或主观的指标评估对话质量[5]。尚无现有基准能够联合评估基于图像和EHR的多轮患者-AI对话,并包含经临床医生验证的安全性和准确性评估。

为填补这一空白,我们引入了IMCBench,一个多模态、多轮的基准,用于评估面部皮肤科咨询中的多模态大语言模型。我们的主要贡献如下:

- **一个逼真的医疗对话基准**。IMCBench是一个以图像为支撑、多轮医疗对话的基准,将真实的公开皮肤科图像与合成生成的患者档案配对——根据人口统计信息和风险因素将疾病与患者匹配,以保持临床真实性,同时确保完全的患者隐私。该基准覆盖了53种疾病,以及多样化的患者意图(如疾病评估、治疗管理)和个性(焦虑、配合、信任等)。
- **与临床医生对齐的LLM-as-Jury评估流程**。我们提出一个由两名评判员组成的LLM陪审团,配以自我改进的评分规则优化框架,该框架基于专家临床医生注释迭代地细化评分标准。优化后,陪审团与临床医生在临床安全性上的±1一致率达到注释者间一致性上限(88.6%),且二次加权κ值相近(0.79 vs. 0.78),从而无需逐条对话进行人工评估即可实现可扩展的评估。
- **全面的模型评估**。我们在总计1,240次对话中评估了八个前沿多模态大语言模型,涵盖三个临床驱动的维度:临床安全性、准确性以及诊断语言中不确定性使用的恰当性。我们发现安全性与准确性之间存在分离:安全性在恶性疾病和罕见疾病上均会下降,而准确性则保持不变。没有任何单一模型在所有维度上占优:Claude Opus 4.6 在安全性和准确性上排名第一,但在不确定性处理上排名第二;GPT-5.2 在不确定性处理上排名第一,但在安全性上排名倒数第二。
- **消融研究**。在四个模型上,我们分离了视觉输入和患者EHR的贡献,发现两者均有助于提高安全性(分别移除两者时,安全性平均下降 0.18 和 0.23)。视觉贡献对 Claude Opus 4.6 最大,表明该模型更积极利用图像信息。

## 2 相关工作

近期的大语言模型展现出强大的多模态推理能力,能够支持诸如使用患者拍摄照片进行远程会诊以及分诊等临床应用[12, 9, 11, 5]。越来越多的研究在单个维度上评估医疗AI,但现有基准均未联合考虑医疗背景、多轮对话、图像支撑、经临床医生对齐的评分规则评估以及结构化患者背景。表1将IMCBench与先前工作在六个反映这些特性的轴上进行了比较:**Healthcare** 标记基准是否以临床内容为基础;**Conversation type** 区分多轮对话与单轮QA/VQA以及多轮QA(链式问题,非有机对话);**Images** 表示是否包含任何视觉模态(临床照片、放射学图像、病理学图像);**Eval rubrics** 标记是否基于命名维度(如安全性、准确性、沟通)的评分规则评估,而非仅使用BLEU或多选题准确率;**Realism** 反映是否包含有机的患者-临床医生互动及模拟患者角色,而非脚本化的QA对;**EHR** 标记是否考虑结构化的患者健康信息(药物、过敏、实验室结果、人口统计信息)。仅提供非结构化病史(例如自由文本的现病史)的基准被标记为部分。

表 1:医疗对话基准对比。✓ = 存在,✗ = 不存在,✲ = 部分存在。

| Benchmark | Healthcare | Conversation Type | Images | Eval Rubrics | Realism | EHR |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| MedQA, RadIQ... | ✓ | Single-turn QA/VQA | ✓ | ✗ | ✗ | ✗ |
| MEDIQA-M3G... | ✓ | Single-turn QA/VQA | ✓ | ✗ | ✗ | ✗ |
| HealthBench... | ✓ | Multi-turn (text) | ✗ | ✓ | ✓ | ✗ |
| MMD-Eval... | ✓ | Multi-turn (text) | ✗ | ✓ | ✓ | ✲ |
| 3MDBench... | ✓ | Multi-turn | ✓ | ✗ | ✓ | ✗ |
| Dr-LLaVA... | ✓ | Multi-round QA | ✓ | ✗ | ✗ | ✗ |
| MedAtlas... | ✓ | Multi-turn | ✓ | ✓ (explanations) | ✗ | ✗ |
| AMIE... | ✓ | Multi-turn (text) | ✗ | ✓ (clinician eval) | ✓ | ✲ |
| **IMCBench (Ours)** | ✓ | Multi-turn | ✓ | ✓ (3 dimensions) | ✓ | ✓ |

在图像支撑的多轮对话基准中,3MDBench[16] 模拟了跨34种诊断的远程医疗咨询,并表明多模态、上下文感知的提问比非对话基线获得更高的诊断F1分数,从而证明了迭代信息收集相对于单次诊断的价值。然而,3MDBench 及与之密切相关的努力(Dr-LLaVA[15], MedAtlas[20])均未纳入结构化EHR上下文,如当前用药、过敏史和实验室结果,而这些在真实世界的临床医生咨询中起着关键作用。另一条互补的研究路线利用LLM驱动的患者模拟器来评估跨多轮的诊断推理能力:AMIE[18] 展示了有机对话和经临床医生对齐的评估的价值,但主要依赖文本案例场景而非视觉输入。在多模态问答方面,MEDIQA-M3G[21] 和 WorldMedQA-V[7] 专注于单轮图像-文本任务;相反,多轮对话基准如 HealthBench[1]、MMD-Eval[6] 和 MidMed[13] 则为纯文本,无法评估视觉推理能力。据我们所知,IMCBench是第一个将图像支撑的多轮对话与结构化EHR上下文及经临床医生对齐的评分规则评估相结合的基准。

## 3 方法

### 3.1 概述

图 1 展示了我们的四阶段方法概览,用于生成临床逼真的患者与医疗AI助手之间的对话。本节我们详细描述每个阶段。

图 1:IMCBench 概览。**数据集构建**:将公共皮肤科图像(DDI)与合成EHR(Synthea)结合,形成临床连贯的⟨图像, EHR⟩ 配对。**场景生成**:从临床任务和⟨图像, EHR⟩ 配对中采样,并结合患者个性,生成逼真的场景和初始查询。**对话模拟**:通过多轮对话模拟多模态患者与医疗AI之间的交互。在**评估**阶段,对话由LLM陪审团在三个临床指标上进行评分。

### 3.2 数据集构建

##### 公共图像数据集

我们的基准基于 Diverse Dermatology Images (DDI) 数据集[2],这是一个公开的包含656张活检确诊临床照片(570名独特患者)的数据集,旨在反映肤色多样性。经过人工审查,我们排除了包含明显视觉伪影(如用作尺寸参照的标尺)的图像,最终得到285张图像,涵盖62种疾病。剩余数据集包括良性(193张)和恶性(92张)病变,按Fitzpatrick肤色分型分布均衡:FST I-II(85张,29.8%),FST III-IV(88张,30.9%),FST V-VI(112张,39.3%)。每张图像都配有真实疾病标签和恶性标志。后续的图像选择过程优先考虑恶性平衡,而非穷尽疾病覆盖。因此,9种单一图像的良性疾病未出现在最终的n=155评估集中,该评估集涵盖62种疾病中的53种。

##### 图像标注

针对每张图像,我们生成两种互补的文本表示:

1) **医学描述**。我们从SkinCAP[22](一个包含丰富医学描述语的皮肤科数据集)中获取图像描述,使用覆盖DDI图像的那部分描述。每条描述提供了病变的临床描述,通常涵盖形态、颜色、病变位置等视觉特征,以及活检或处理建议。

2) **通俗描述**。我们提示 Claude Sonnet 4.6 将每条描述重写为口语化、以症状为中心的语言,类似于非专业患者可能使用的表达(例如:“我脚底长了一块怪怪的棕色斑点,边缘很不规则、参差不齐”)。

##### 合成EHR的构建

我们使用 Synthea[19](一个基于概率疾病进展模型和既定临床指南生成临床合理纵向记录的开放源代码生成器)生成一个包含97份合成EHR的池子。我们根据年龄、生理性别和地理位置对档案进行参数化,每个档案分配固定的随机种子以确保可重复性。

为更好地适应远程分诊场景,我们对每个档案进行后处理。我们剔除与牙科关键词(如牙龈炎、龋齿)匹配的疾病(因为Synthea的牙科模块在其他疾病列表上占主导),将药物条目上限设为10项(并将重复的阿片类药物处方合并为一个代表性条目),过敏症上限设为8项。每个清理后的档案随后被解析为结构化的患者摘要——包括疾病、当前药物、过敏症、免疫接种史、生命体征和实验室结果——这些信息会在对话时提供给助手模型。

作为最终的质量保证步骤,我们审计了所有97份记录,并解决了97名患者中的173个临床一致性问题,包括药物-过敏冲突、性别不一致的疾病、出生前发病日期、由实验室值隐含但未记录的诊断、慢性病管理中的缺口以及观察结果中的错误单位转换。

##### 图像-EHR配对

我们开发了一个疾病匹配框架,给定一张DDI图像,从合成池中选择最临床合理的EHR。对于每张图像,我们首先通过提示 Claude Sonnet 4.6 推断患者的明显性别和年龄组(低于/高于50岁),并使用这些推断的人口统计信息对EHR候选进行预过滤,保留匹配性别和年龄的记录。然后,Claude Haiku 4.5 从过滤后的池中选择最佳匹配,根据每个候选者的现有疾病和药物以及图像的真实疾病标签进行选择。这种跨数据集配对——一边是真实的公共皮肤科图像,另一边是独立生成的EHR——产生了内部连贯的⟨图像, EHR⟩ 配对,为每次对话提供了逼真的临床背景。

### 3.3 场景和查询生成

每个评估实例以一个简短的患者场景(3-5句)开始,描述患者联系AI健康助手咨询皮肤科问题。

##### 任务分类

场景锚定到一个临床意图,该意图从可配置的分类分布中采样。

相似文章

AICompanionBench:评测 LLM 作为裁判在 AI 伴侣安全领域的表现

arXiv cs.AI

AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。