探测、融合与可信度:面向多模态癌症分析的基础模型表征系统评估
摘要
本文系统评估了用于多模态癌症分析的基础模型表征,在真实世界队列上对单模态与多模态融合策略进行基准测试,并通过共形预测评估可信度。
arXiv:2606.17115v1 公告类型:新
摘要:基础模型已成为医学数据强大的表征提取器,但其在分布偏移数据上的泛化能力仍未得到充分探索。本工作在两项真实世界商业队列——IH-BC和IH-NSCLC(源自许可的内部肿瘤学数据集)上,系统评估了基于基础模型的表征在一系列计算病理学任务中的表现。分析聚焦于两种模态:全切片图像和转录组图谱,均来自IH多模态数据。我们首先在八项下游分类任务上对五个基础模型进行了单模态探测性能基准测试,发现图像和组学表征携带互补的预测信号。随后,我们通过比较三种基于配对表征的图像-组学融合策略,探究多模态融合是否能在单模态基线之上带来额外增益。进一步通过共形预测评估了所选单模态和多模态管线的可信度。结果表明,基础模型表征在分布外数据上取得了具有竞争力的性能,且多模态融合主要在没有单一模态主导信号时发挥作用。共形预测揭示,在点预测失败的大多数情况下,真实诊断仍可在预测集中恢复,这强化了不确定性感知推断在临床支持中的价值。
查看缓存全文
缓存时间: 2026/06/17 05:35
# 探索、融合与可信度:面向多模态癌症分析的基础模型表征系统评估
来源:https://arxiv.org/html/2606.17115
11institutetext:艾伦·图灵研究所,伦敦,英国22institutetext:布里斯托大学,布里斯托,英国33institutetext:曼彻斯特大学,曼彻斯特,英国44institutetext:癌症研究院,伦敦,英国55institutetext:基因泰克,美国
55email:tchakraborty@turing\.ac\.uk###### 摘要
基础模型(FMs)已展现出作为医学数据强大表征提取器的潜力,但它们在分布偏移数据集上的泛化能力仍未得到充分探索。本文系统评估了基于FM的表征在计算病理学任务套件上的表现,所用数据来自两个真实世界的商业队列——IH-BC和IH-NSCLC,均源于授权的内部(IH)肿瘤学数据集。分析聚焦于来自IH多模态数据的两种模态:全切片图像和转录组谱。我们首先在五个FMs上对八项下游分类任务进行单模态探测性能基准测试,发现图像和组学表征携带互补的预测信号。接着,我们通过比较基于配对表征构建的三种图像-组学融合策略,探究多模态融合是否能相较于单模态基线带来额外增益。进一步通过保形预测评估所选单模态和多模态管线的可信度。结果表明,FM表征在分布外数据上取得了有竞争力的性能,且多模态融合主要在单一模态不占主导信号时发挥作用。保形预测揭示,在大多数点预测失败的情况下,真实诊断仍可在预测集中恢复,这强化了面向临床支持的认知不确定性推理的价值。
## 1 引言
人工智能已在多种癌症诊断应用中展现出良好前景,涵盖医学影像[4 (https://arxiv.org/html/2606.17115#bib.bib2),45 (https://arxiv.org/html/2606.17115#bib.bib1)]、病理学[9 (https://arxiv.org/html/2606.17115#bib.bib3)]、分子与基因组解读[10 (https://arxiv.org/html/2606.17115#bib.bib4),35 (https://arxiv.org/html/2606.17115#bib.bib5)]以及临床结局预测[48 (https://arxiv.org/html/2606.17115#bib.bib6)]。这些方法中的常见工作流是使用特定模态的编码器提取数据表征,然后由单模态或多模态学习模块进行下游预测。编码后表征的表达能力很大程度上决定了下游预测器的质量,已有研究广泛探讨了编码器架构与容量如何匹配各数据模态[27 (https://arxiv.org/html/2606.17115#bib.bib32),59 (https://arxiv.org/html/2606.17115#bib.bib33)]。
随着医学数据集在数量与规模上持续增长[22 (https://arxiv.org/html/2606.17115#bib.bib27)],为每个新任务从头训练专用编码器在计算上变得昂贵。为应对这一瓶颈,近期研究开始探索医学基础模型(FMs),这些模型在大规模医学语料库上预训练,并作为无需训练的特征提取器用于异构下游任务。病理学FM如CONCH[42 (https://arxiv.org/html/2606.17115#bib.bib8)]和转录组FM如UCE[49 (https://arxiv.org/html/2606.17115#bib.bib28)]均已报告了有前景的可迁移性,不过评估主要基于可能与FM预训练语料库重叠或相近的公开基准。
然而,在现实场景中,还存在来自工业和商业来源的数据集,由于数据采集管线的不同,其分布与公开数据集存在差异。FMs能否泛化到这些未见数据仍是一个未被充分探索的问题。这一空白促使我们提出第一个问题:*FM表征能否迁移到OOD数据集,并在探测(probing)下产生可靠表征?*我们使用一个内部(IH)真实世界多癌症病例数据集(附带配对的H&E全切片图像与转录组谱)来研究该问题。我们探测来自四个图像FM的图像表征,以及来自三个转录组编码器的组学表征,并在八项下游分类任务上评估其性能。
单模态探测的评估表明,图像与组学表征携带互补信号。这符合现实情况:预后和治疗反应通常由形态学、分子状态和临床背景等多模态共同决定。因此,先前研究已开始多模态学习的探索,采用拼接[17 (https://arxiv.org/html/2606.17115#bib.bib7)]和跨模态注意力[18 (https://arxiv.org/html/2606.17115#bib.bib35)]等融合策略来整合跨模态信息。我们因此提出另一个问题:*图像-组学融合表征能否在单模态表征基础上获得额外预测性能?*通过将图像与组学表征与三种融合策略配对,我们发现多模态融合在某些任务上产生了更强的性能。
迄今为止的评估主要聚焦于预测性能(如准确率)。然而,在医学诊断等高风险领域,高效用本身并不能保证可信度:模型可能在不同人口统计学亚组上存在校准偏差或不公平。这引导我们进一步思考:*上述所研究的单模态和多模态技术有多可信?*我们应用保形预测[3 (https://arxiv.org/html/2606.17115#bib.bib39)]来评估预测不确定性,并量化各亚组间预测性能的差距。所选管线实现了有意义的覆盖保证,且各组间性能大致相似,同时揭示了有待未来研究的任务特定差异。
参照图注图1:实验设置概览。图1 (https://arxiv.org/html/2606.17115#S1.F1)展示了本文的整体工作流,分为三部分:在八项下游任务上对图像与组学表征的单模态探测(§3 (https://arxiv.org/html/2606.17115#S3))、基于配对图像-组学表征构建的三种图像-组学融合策略的多模态学习比较(§4 (https://arxiv.org/html/2606.17115#S4)),以及通过保形分析对所选单模态与多模态技术进行可信度评估(§5 (https://arxiv.org/html/2606.17115#S5))。
## 2 实验设置
数据集 预处理方法。本研究使用了基于美国的去身份化Flatiron Health-Caris Life Sciences乳腺癌和非小细胞肺癌临床-分子数据库(CMDB)。来自Flatiron Health研究数据库[26 (https://arxiv.org/html/2606.17115#bib.bib80),44 (https://arxiv.org/html/2606.17115#bib.bib81),60 (https://arxiv.org/html/2606.17115#bib.bib82)]的临床数据通过概率匹配与CMDB中来自Caris Life Sciences的MI ProfileTM综合分析的分子数据关联,形成一个去身份化数据集[12 (https://arxiv.org/html/2606.17115#bib.bib77),11 (https://arxiv.org/html/2606.17115#bib.bib78),13 (https://arxiv.org/html/2606.17115#bib.bib79)]。根据癌症类型,该数据集被分为两个内部队列,分别称为IH-BC和IH-NSCLC。每个IH子集包含对应癌症的多模态基因组数据。本研究主要采用H&E图像和组学数据两种模态作为输入,并将癌症亚型、活检部位和生物标志物信息作为下游预测任务。具体而言,IH-BC包括LOH、生物标志物PR状态、PIK3CA状态、活检部位和乳腺癌亚型识别任务,而IH-NSCLC包括活检部位、肿瘤部位和TMB识别任务。数据集按7:3:1:1的比例划分为训练集、校准集、验证集和测试集。多模态学习方法在训练集上训练,并在测试集上评估。更详细的预处理步骤见附录0.B.1 (https://arxiv.org/html/2606.17115#Pt0.A2.SS1)。
建模方法。实验包含两个阶段:表征提取和表征学习。在表征提取阶段,我们对H&E WSI数据评估了四种切片级基础模型(CONCH[42 (https://arxiv.org/html/2606.17115#bib.bib8)]、UNI[16 (https://arxiv.org/html/2606.17115#bib.bib30)]、Virchow[55 (https://arxiv.org/html/2606.17115#bib.bib29)]和MUSK[57 (https://arxiv.org/html/2606.17115#bib.bib31)]),以及一种组学基础模型(UCE[49 (https://arxiv.org/html/2606.17115#bib.bib28)])用于组学数据。我们还使用scVI[41 (https://arxiv.org/html/2606.17115#bib.bib37)]和主成分分析(PCA)[1 (https://arxiv.org/html/2606.17115#bib.bib54)]获得组学表征以作比较。在表征学习阶段,我们考虑了五种方法,每种与不同的表征骨干结合,包括两种单模态方法:基于H&E图像的多实例学习(HEMIL)和用于组学数据的多层感知机(GeneMLP),以及三种多模态方法:基于拼接的融合(CONTACT)、多模态共注意力Transformer[18 (https://arxiv.org/html/2606.17115#bib.bib35)](MCAT)和晚期融合多实例学习[46 (https://arxiv.org/html/2606.17115#bib.bib34)](LateMIL)。所有方法均针对同一任务集设计,方法详情见附录0.B.2 (https://arxiv.org/html/2606.17115#Pt0.A2.SS2)。
评估指标。使用准确率(ACC)和AUC作为下游分类任务模型效用性能的主要评估指标。采用ROC曲线展示不同分类阈值下真阳性率与假阳性率之间的权衡。更详细的公式见附录0.B.3 (https://arxiv.org/html/2606.17115#Pt0.A2.SS3)。
## 3 单模态探测实验
表1:IH-BC和IH-NSCLC任务的单模态探测性能。报告了ACC和AUC。表1 (https://arxiv.org/html/2606.17115#S3.T1)总结了四种切片表征和三种组学表征在八项下游任务上的单模态探测性能。
图像基础模型总体上表现相当,但结果在不同癌症类型间差异显著:在所有图像FM上,IH-BC活检部位的AUC超过0.90.9,而IH-NSCLC活检部位的AUC范围仅为0.63250.6325至0.64780.6478。在切片表征中,各图像FM之间的差异相对于任务之间的差异较小,表明下游任务难度是决定单模态探测性能的关键因素。组学表征在若干任务上提供了强大的单模态信号,并在某些情况下优于基于图像的方法。例如,基于图像的方法在BC-PIK3CA任务上的最高准确率为0.7533,而最佳基于组学的结果达到0.7933。经典的PCA基线在大多数任务上通常优于学习的转录组编码器,并在LOH(0.77940.7794)、PR(0.81590.8159)、PIK3CA(0.79210.7921)、亚型(0.89550.8955)和TMB(0.72770.7277)上取得了最高AUC。
我们还比较了ROC曲线(图2 (https://arxiv.org/html/2606.17115#S3.F2)),观察到一致的模式:图像表征表现更稳定,各FM间方差较小。所有三种组学表征方法(UCE、PCA和scVI)在BC-LOH任务上均优于直接对原始全基因表达谱建模。然而,基础模型UCE的表现不如非基础模型方法scVI和PCA。在工业IH数据集中观察到的模式与先前在公开数据集上的讨论一致,表明PCA可能比现有的组学基础模型更适合捕获生物扰动[8 (https://arxiv.org/html/2606.17115#bib.bib38)]。这表明构建有效的转录组基础模型仍是一个开放挑战。
参照图注图2:BC-LOH任务上的ROC比较。
## 4 多模态融合实验
参照图注图3:单模态(GeneMLP, HEMIL)与多模态(MCAT, CONTACT, LateMIL)方法的性能比较。上述结果表明组学和图像模态在不同任务上各有优势,我们接下来研究融合它们的表征是否能带来额外收益。图3 (https://arxiv.org/html/2606.17115#S4.F3)比较了以CONCH作为图像骨干、PCA/SCVI作为组学骨干时的单模态与多模态性能。完整结果见附录表5 (https://arxiv.org/html/2606.17115#Pt0.A3.T5)。
在不同融合策略中,LateMIL在任务间的一致性优于CONTACT和MCAT。它们与单模态方法的比较结果好坏参半:多模态融合在某些任务上优于最佳单模态基线,但也存在无明显增益甚至不如单模态模型的情况。例如,LateMIL在BC-LOH任务(使用CONCH+PCA)上取得最高AUC,且LateMIL在NSCLC-活检部位任务上仍具竞争力。在BC-亚型任务上,各方法在准确率和AUC上大致相当,融合相比最强单模态基线仅带来边际增益。相反,在NSCLC-TMB任务上,GeneMLP (PCA) 取得了最高ACC,而MCAT和LateMIL明显低于它。这表明当单一模态携带主导预测信号时,融合反而可能削弱表征。在UNI+PCA组合下也观察到相同模式,单模态与多模态方法的相对排名同样随任务而变化。这些结果表明,多模态融合并非普遍有益,其效用取决于各模态对目标任务的相对信息量。
## 5 不确定性量化实验
表2:在α=0.10\\alpha=0.10下,所有模型的任务级保形性能平均值。
表3:在α=0.10\\alpha=0.10下,按模型划分的保形性能。每项:覆盖率 / 平均集合大小。
对于高风险肿瘤学决策支持系统而言,仅有点预测是不够的,因为模型仍可能做出高置信度的错误预测。不确定性量化(UQ)通过为每个预测提供校准后的置信度估计来解决这一问题[6 (https://arxiv.org/html/2606.17115#bib.bib53)]。我们使用分裂保形预测(CP)[3 (https://arxiv.org/html/2606.17115#bib.bib39)]分析不确定性,这是一种模型无关框架,可包裹任何训练好的分类器,并生成具有覆盖保证的预测集C(x)\mathcal{C}(x)而非单一的top-1类别。我们将其应用于四个标签结构各异的任务:LOH、活检部位、亚型和肿瘤部位。我们报告α=0.10\\alpha=0.10(90%覆盖目标)下的结果;其他α\\alpha值见附录0.C.1 (https://arxiv.org/html/2606.17115#Pt0.A3.SS1)。我们使用三个指标评估保形预测:经验覆盖率、平均集合大小和单例率。经验覆盖率衡量真实标签出现在预测集中的频率,而平均集合大小和单例率则量化这些预测集的信息量和特异性。更多细节见附录0.B.4 (https://arxiv.org/html/2606.17115#Pt0.A2.SS4)。
如表3 (https://arxiv.org/html/2606.17115#S5.T3)所示,所有四个多分类任务的平均覆盖率均达到或高于名义上的0.90。相似文章
融合并非放之四海而皆准:面向时间-事件建模的跨模态表示对齐
介绍了一种基于基础模型的框架,用于CT影像与纵向EHR数据之间的跨模态表示对齐,以实现时间-事件预测,并在肺栓塞和心血管疾病队列上评估了融合策略。
面向配电缺陷检测的多模态智能体:基础模型评估
本文提出了一种用于配电缺陷检测的多模态智能体框架,评估了基础模型在感知、推理和工具使用能力方面的表现,并提供了新的领域特定数据集和基准。
用于乳腺癌复发预测的多模态机器学习
本文探讨了整合多模态临床数据(包括治疗记录、病理报告和临床医生笔记)的方法,通过基于规则的提取和机器学习,与单模态方法相比,提高乳腺癌复发预测的准确性。
融合之前,先问保留什么:多模态信号的上下文校准
本文介绍了一种即插即用的校准模块,该模块在融合前调整多模态表示,利用跨模态上下文抑制误导信号,增强可靠信号,从而在多个基准测试上提升性能。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。