虚拟节点引导的动态图神经网络用于缺失模态的脑肿瘤分割

arXiv cs.AI 论文

摘要

本文提出了一种基于图的一阶段框架用于脑肿瘤分割,通过引入模态特定的虚拟节点和动态连接策略来处理缺失的MRI模态,在BRATS-2018和BRATS-2020数据集上优于最先进的方法。

arXiv:2605.16880v1 公告类型:新 摘要:多模态磁共振成像(MRI)对于脑肿瘤分割至关重要,许多方法利用其四种关键模态捕获互补信息,以实现有效的子区域分析。然而,在实际中,多种模态的缺失非常常见,导致现有的全模态分割方法性能严重下降。受限于结构化数据模型,最近的工作通常采用多阶段训练策略来处理全模态和缺失模态场景,这增加了训练成本,并且无法充分解决缺失带来的干扰。在这项工作中,我们提出了一种基于图的一阶段框架,用于鲁棒的缺失模态脑肿瘤分割。具体而言,我们引入了模态特定的虚拟节点,作为补充信息源来补偿缺失模态。为了增强模型对任意模态组合的鲁棒性,我们利用图网络的内在灵活性设计了一种动态连接策略。该机制根据模态可用性动态调整邻接矩阵,在减轻缺失模态引起的干扰效应的同时,保留有益的信息流。此外,我们通过异质权重矩阵增强图网络,提高其对多模态场景的适应性。在BRATS-2018和BRATS-2020数据集上的广泛实验表明,我们的方法在几乎所有不完整模态子集上均优于最先进的方法。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:36

# 虚拟节点引导的动态图神经网络用于缺失模态下的脑肿瘤分割
来源:https://arxiv.org/html/2605.16880
Sha Tao Jiao Pan Yu Guo Chao Yao 北京科技大学,北京,中国

###### 摘要

多模态磁共振成像(MRI)对于脑肿瘤分割至关重要,许多方法利用其四种关键模态来捕获互补信息,以实现有效的子区域分析。然而,在实践中,几种模态的缺失非常常见,导致现有的全模态分割方法性能严重下降。受结构化数据模型的限制,近期的工作通常采用多阶段训练策略来处理全模态和缺失模态场景,这增加了训练成本,并且未能充分应对缺失带来的干扰。在这项工作中,我们提出了一种基于图的一阶段框架,用于在缺失模态下进行鲁棒的脑肿瘤分割。具体来说,我们引入了模态特定的虚拟节点,作为补充信息源来补偿缺失模态。为了增强模型对任意模态组合的鲁棒性,我们利用图网络固有的灵活性设计了一种动态连接策略。该机制根据模态可用性动态调整邻接矩阵,在保留有益信息流的同时,减轻缺失模态引起的干扰效应。此外,我们引入了异质权重矩阵,以提高图网络对多模态场景的适应性。在BRATS-2018和BRATS-2020数据集上的大量实验表明,我们的方法在几乎所有不完整模态子集上都优于最先进的方法。

## 1 引言

参见图1说明:图1:我们的方法与近期方法的比较。(a) 定制化方法。(b) 近期统一方法。(c) 我们基于图的方法。

多参数磁共振成像(MRI)是目前临床实践中脑肿瘤定量评估的标准[13]。具体来说,常用的四种MRI模态包括:T1加权(T1)、对比增强T1加权(T1c)、T2加权(T2)和液体衰减反转恢复(FLAIR)图像。每种模态都提供特定且有价值的特征,共同提高脑肿瘤分割的精度。近年来,大量工作探索了使用深度学习方法进行脑肿瘤分割[15,14]。这些方法针对全模态场景进行了优化,并已取得了优异的结果。然而,由于实际限制(如图像损坏、采集协议或患者不适宜状况),并不总是能够获取完整的MRI集合,并且在更实际的情况下,某些模态甚至在训练期间也可能不可用[29]。在这种情况下,这些先进的方法经常遭受严重的性能下降。

为了解决缺失模态的挑战,已经提出了许多方法。一种直接的解决方案是为每个可能的模态子集训练一个定制化模型[30,36],如图1(a)所示。虽然这种策略可以产生有希望的结果,但其训练和部署成本过高,并且随着模态数量呈指数增长。这一根本性限制严重制约了它们在真实临床环境中的适用性。因此,最近的研究转向学习一个能够处理不完整多模态输入的统一模型,主要通过训练期间采用随机模态丢失[10,35]。然而,结构化数据模型(如CNN或Transformer)严重依赖于完整的上下文信息,并且难以在单阶段训练框架内适应所有模态组合。为了克服这一限制,许多现有方法采用两阶段训练策略:要么使用知识蒸馏[12,4,2,24],由全模态模型指导不完整输入的学习;要么训练一个生成模型来重建缺失模态[28,19]。

然而,这些两阶段解决方案最终源于CNN和Transformer等结构化架构的刚性,其计算路径是针对固定模态集预定义的,因此依赖于完整的跨模态对应关系。如图1(a–b)所示,这种固定连接使得定制化和统一的结构化模型对缺失模态模式都很敏感,因为一旦一个或多个模态缺失,预期的特征交互就变得不明确。相比之下,图公式基于实际观察到的模态集运行:每种模态被视为一个节点,缺失的模态仅对应于缺失的节点或边。如图1(c)所示,这种自适应连接使得消息仅在可用模态之间传递,从而使模型在不完整的多模态设置下更加鲁棒。

在这项工作中,我们提出了一种即插即用的基于图的一阶段学习框架。具体来说,从模态特定编码器中提取的特征被视为节点,然后通过图注意力网络(GAT)进行特征表示和融合[27]。为了增强GAT对多模态学习的适用性,我们引入了异质权重矩阵,以实现模态感知的注意力。为了减轻由于模态缺失造成的信息损失,我们引入了零初始化的虚拟节点来捕获模态不变特征,从而即使在某些模态完全缺失的情况下也能提供补充信息。此外,对于由基本节点和虚拟节点组成的整个多模态图,我们设计了一种自适应边连接策略,支持多样化的模态组合,其中信息从现有节点单向流向表示缺失模态的节点。在公开的BraTS-2018和BraTS-2020数据集上的实验表明,我们的方法在几乎所有不完整模态子集上都优于最先进的方法。即使在最极端的单模态场景中,我们的方法仍然保持了鲁棒的性能。

我们的主要贡献可总结如下:

- • 我们提出了一种即插即用的基于图的框架来处理脑肿瘤分割中的模态缺失问题,该框架可以轻松集成到现有系统中。图架构的非结构化特性使得能够直接在不完整数据上进行一阶段训练,消除了在全模态设置下需要额外监督的需求。
- • 我们引入了零初始化的虚拟节点来减轻由模态缺失引起的信息损失。通过启用基础节点和虚拟节点之间的协同表示,我们的模型在任意模态组合下保留了全面的上下文信息。
- • 我们设计了一种动态边连接机制,其中信息从现有节点单向流向表示缺失模态的节点。这使得模型能够在一个统一的架构内灵活适应可用模态的不同组合。

参见图2说明:图2:所提出框架的概述。详细的动态边连接如图3和算法1所示。

## 2 相关工作

### 2.1 缺失模态下的多模态脑肿瘤分割

现有的处理模态缺失的脑肿瘤分割方法可以根据缺失模态的表示方式大致分为显式和隐式方法。

显式(基于重建)方法在图像层面或特征层面恢复缺失模态信息。图像级方法为全模态分割合成缺失模态(例如,使用GAN)[18,33,32,34,8],然而从剩余模态中准确重建关键缺失模态通常很困难甚至不可行。特征级方法则推断缺失模态的代表性嵌入。例如,Shen和Gao[26]使用对抗学习来对齐特征分布,而Wang等人[28]提出了共享特定特征建模框架用于模态不变和模态特定表示。尽管这类方法促进了跨模态对齐,但它们可能抑制模态特定的线索,这在关键模态信息缺失时是不利的。此外,图像级和特征级方法通常都需要辅助生成网络,增加了模型复杂度和计算成本。

隐式方法侧重于学习一个多模态潜在特征空间。异模态变分编码器-解码器[6]结合了多模态变分自编码器,从共享潜在变量重建模态,而LS3M[37]采用可学习的排序和状态空间建模,在任意模态组合下进行端到端分割。许多方法还利用知识蒸馏[11],其中教师(全模态)和学生(缺失模态)模型被训练以传递潜在知识[12,4,2,24]。与显式重建相比,隐式方法训练更容易,但通常对缺失模态的补偿有限,并且仍然依赖两阶段训练。

总体而言,大多数现有方法仍然依赖结构化架构,并且通常需要两阶段优化来处理模态缺失。相比之下,我们的方法采用基于图的公式,结合了显式缺失模态表示和隐式特征学习。

### 2.2 图神经网络用于医学图像分割

图神经网络(GNN)[9]先前已被应用于医学图像分割任务。Yan等人[31]首次使用SLIC算法[1]将MRI聚类成超体素,然后预测每个超体素的组织类型。受此工作启发,后续研究通常遵循类似的工作流程[7,25,21]。然而,这类方法通常依赖于基于超像素的表示,这阻碍了模态特定特征的保留,并降低了跨模态信息融合的有效性。这些局限性在模态缺失场景中尤为关键。

此外,先前的一些工作已经引入了图启发的机制来处理模态缺失。Yang等人[32]引入了图注意力融合模块用于多模态MR图像合成和肿瘤分割,Zhao等人[39]提出了一种基于图表示概念的模态自适应特征交互框架。然而,这些方法主要是在其他结构化架构中融入图启发的操作,并没有明确解决缺失模态应如何表示或在不同缺失模态模式下信息应如何传播的问题。相比之下,我们的工作通过一个即插即用的图接口来形式化缺失模态交互,其中引入了虚拟节点来表示缺失模态,并且图连接性根据观察到的模态子集进行动态自适应。因此,所提出的框架与先前的图启发方法不仅在架构形式上不同,而且在如何建模模态缺失以及如何定义跨模态信息流方面也存在差异。

## 3 方法

所提出框架的概述如图2所示。我们首先使用专门的编码器从多模态MRI输入中提取模态特定特征。同时,我们构建一个包含图像派生节点和零初始化虚拟节点的图,以及为全模态设置定义的默认邻接矩阵。然后将提取的特征映射到对应的节点,并通过配备异质权重矩阵的图注意力网络(GAT)进行处理,以更好地建模多模态关系。为了支持可用模态的任意组合,我们采用随机模态丢失,用零向量替换缺失模态节点,并通过我们的自适应边策略动态更新图连接性。最后,增强的节点表示被送入解码器以生成分割图。

训练和推理之间的主要区别在于模态的可用性。在训练期间,所有模态都是可访问的,并且通过随机模态丢失模拟缺失模态场景。下面,我们将详细解释每个模块。

### 3.1 节点构建

我们用 M = {FLAIR, T1c, T1, T2} 表示完整的模态集。给定输入图像 x^m ∈ R^(1×D×H×W),其中 W, H, D 分别是图像的宽度、高度和深度,且 m ∈ M,我们利用特定的卷积编码器生成特征图。在此条件下,所有模态的原始图像都是可用的,因此我们可以获得每个模态独立且完整的特征。假设通过编码器获得的特征表示为 f^m ∈ R^(C×D′×H′×W′),其中 C, D′, H′ 和 W′ 分别指通道数以及经过若干卷积下采样操作后得到的相应特征维度。通过特征维度的变换,我们将它们转换为节点 v^m ∈ R^(C×F),其中 F = D′ × H′ × W′。

为了减轻由缺失模态引入的信息损失...

相似文章

多发性硬化症诱导的脑损伤模拟联邦分析

arXiv cs.LG

本文介绍了一个用于多发性硬化症(MS)脑损伤联邦分析的模拟框架,该框架将图像分割与临床数据分析相结合,在保护患者隐私的同时测试联邦学习方法。

Brain-IT-VQA:从大脑信号到答案

Hugging Face Daily Papers

Brain-IT-VQA 框架利用 Transformer 架构从 fMRI 信号中解码视觉内容,性能优于此前的方法。作者还引入了 NSD-VQA,这是一个新数据集,具有更丰富的标注,用于评估基于 fMRI 的视觉问答。

人工神经网络中的多模态神经元

OpenAI Blog

OpenAI 在 CLIP 中发现了多模态神经元,它们在不同模态(视觉、符号、文本)中对同一概念做出响应,这与生物神经元的行为相似,解释了该模型在困难视觉任务上的鲁棒性。这项可解释性研究为我们理解视觉-语言模型如何组织和表示抽象概念提供了深刻见解。