Artemis: 基于解剖结构解析的多模态神经影像混杂因素消除干预

arXiv cs.LG 2026/06/18 04:00 论文

摘要

Artemis 提出了一种区域级因果框架，通过学习区域特异性混杂变量表示，消除多模态神经影像中的统计学混杂因素，从而提升图神经网络在疾病诊断和分类任务上的性能。

arXiv:2606.18287v1 Announce Type: new 摘要：多模态神经影像通过整合fMRI的功能连接和DTI的结构连接，利用图神经网络实现脑网络的无创分析。然而，年龄、性别等人口统计学因素会系统性地混淆脑连接与临床结果之间的关系，导致图神经网络倾向于利用虚假捷径而非学习因果不变表示。尽管近期因果图神经网络方法在图建模层面引入因果关系，但其因果机制仍缺乏领域特异性，未能考虑临床神经影像数据中固有的真实世界混杂因素。此外，脑网络基于图谱划分构建，不同脑区对人口统计学因素的敏感性各异，因此需要区域感知的调整。我们提出Artemis，一种区域级因果框架，通过轻量级参数学习区域特异性混杂变量表示，独立地对每个脑区进行因果干预，从而填补这一空白。该调整全面利用多模态功能和结构特征进行图推理，作为兼容任意图神经网络骨架的即插即用模块。在三个基准上的实验——ADNI疾病诊断、OASIS痴呆分期和HCP性别分类——均显示相较于代表性图神经网络基线方法的一致改进。多项辅助实验进一步证明了统计显著性和神经科学可解释性。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:40

# Artemis：面向多模态神经影像中混杂因素消除的解剖结构解析式干预
来源：https://arxiv.org/html/2606.18287
杨杜¹  赵坤¹  陈主燊 匹兹堡大学电子与计算机工程系，匹兹堡，宾夕法尼亚州\.siyuan\.dai@pitt\.edu (https://arxiv.org/html/2606.18287v1/mailto:[email protected])liang\.zhan@pitt\.edu (https://arxiv.org/html/2606.18287v1/mailto:[email protected]) 黄恒 马里兰大学帕克分校计算机科学系，大学城，马里兰州 保罗·汤普森 南加州大学凯克医学院神经影像与信息学研究所影像遗传学中心，洛杉矶，加利福尼亚州 石超 宾汉姆顿大学系统科学与工业工程系，宾汉姆顿，纽约州 唐浩腾 德克萨斯大学里奥格兰德河谷分校计算机科学系，爱丁堡，德克萨斯州 战亮¹

###### 摘要

多模态神经影像整合了来自fMRI的功能连接和来自DTI的结构连接，能够利用图神经网络对脑网络进行无创分析。然而，年龄和性别等人口统计学因素会系统性地混淆脑连接与临床结局之间的关系，导致GNN利用虚假的捷径而非学习因果不变的表征。尽管最近的因果GNN方法在图建模层面引入了因果关系，但其因果机制仍是领域无关的，未能考虑临床神经影像数据中固有的真实世界混杂因素。此外，脑网络是基于图谱分区构建的，每个脑区对人口统计学因素表现出不同的敏感性，因此需要进行区域感知的调整。我们提出Artemis，这是一个区域级的因果框架，通过在每个脑区独立进行因果干预来弥合这一差距，利用轻量级参数学习区域特定的混杂因素表征。我们的调整全面利用了多模态功能和结构特征进行图推理，作为一个可插拔模块，兼容任意GNN骨干网络。在三个基准数据集（ADNI用于疾病诊断、OASIS用于痴呆分期、HCP用于性别分类）上的实验表明，该方法在代表性GNN基线之上取得了持续改进。多项支持性实验进一步证明了统计显著性和神经科学可解释性。

## 1 引言。

图1：在所有三个基准数据集中，人口统计学混杂因素与标签纠缠在一起。(a) 在ADNI上，MCI患病率从最年轻年龄组到最年长年龄组逐渐上升。(b) 在HCP上，较年轻的队列中男性比例偏高。(c) 在OASIS上，最年长年龄四分位数的痴呆患病率大约是三个较年轻四分位数的三倍。无创神经影像是临床神经科学的基石。功能性MRI (fMRI) 捕获脑区的时间共激活，而弥散张量成像 (DTI) 则描绘了支撑这些活动的解剖学白质通路。将每种模态建模为基于图谱定义的感兴趣区域 (ROI) 上的图，使得图神经网络 (GNN) 能够学习用于疾病诊断、认知预测和人口统计学分析的可判别表征\[Li2020BrainGNNIB，Kawahara2017BrainNetCNNCN，Kan2022BrainNT\]。融合两种模态进一步为人群水平的脑分析提供了更丰富、基于解剖学的基质\[Tang2024InterpretableSE，Yin2024AHG，Ye2023BidirectionalMW\]。

然而，多模态临床神经影像中的人口统计学混杂问题普遍存在，但在下游预测建模中却很大程度上被忽视了。临床队列自然具有人口统计学不平衡性：年龄、性别和教育程度几乎与所有感兴趣的临床标签共同变化。例如，在ADNI\[Jack2008TheAD\]中，患有轻度认知障碍 (MCI) 的受试者平均比健康对照者年龄更大，如图1 (https://arxiv.org/html/2606.18287#F1) 所示；而在HCP\[Essen2013TheWH\]中，性别与教育差异相关。同时，已知人口统计学因素会影响区域脑结构和功能，包括与年龄相关的海马完整性下降以及皮层区域（如初级视觉皮层）的性别相关效应\[Ritchie2017SexDI，Fjell2014WhatIN\]。如果没有显式的调整，进行端到端训练的GNN可能会依赖人口统计学驱动的连接模式作为虚假捷径，忽略因果相关的疾病信号。这个问题可能导致有偏的预测、跨亚群鲁棒性下降以及误导性的神经科学解释，这些在临床应用中都是特别不可取的。

现有的因果GNN虽然前景光明，但仍属领域无关。典型的工作将因果推理注入GNN，最显著的是通过干预或不变性目标将“因果”和“虚假”子图解耦\[Fan2022DebiasingGN，Sui2021CausalAF，Chen2022LearningCI\]。这些方法在通用领域推进了因果鲁棒图学习，但其混杂因素概念是*结构性的*：由图拓扑本身而非任何外部变量引起。对于神经影像，CI-GNN\[zheng2024ci\]采用格兰杰因果关系作为事后可解释性工具，而Contrasformer\[xu2024contrasformer\]通过对比图解决子群体偏移问题，完全没有涉及因果调整。这些方法隐含地假设混杂存在于连接矩阵内部（这是不可观测的），忽略了临床队列中，主导的混杂因素是*已观测到的*人口统计学属性，且具有充分记载的神经科学效应。因此，当前的因果GNN无法执行神经影像所需的最基本的因果操作：通过后门调整来校正已知的人口统计学混杂因素。

此外，人口统计学混杂在整个大脑中并非均匀分布\[Alex2023AGM，Eickhoff2018ImagingbasedPO\]。基于图谱的分割将皮层和皮层下区域划分为解剖和功能各异的区域，每个区域有其自身的发育轨迹和敏感性特征。对所有ROI统一应用单一的全局混杂校正无法捕获这种异质性，并且可能导致对像海马体这样的区域矫正不足，或对本身已经很干净的区域过度校正，而海马体同时受到衰老和阿尔茨海默病的强烈影响\[Frisoni1999HippocampalAE\]。

为了解决这些问题，我们提出Artemis，这是一个基于后门调整的区域级因果干预框架，如图1 (https://arxiv.org/html/2606.18287#F1) 所示。Artemis通过一个共享的多层感知器结合可学习的区域标记，将人口统计学向量映射到一个*每ROI*的混杂嵌入，从而捕获区域特定的敏感性。我们引入一个轻量级的指数移动平均 (EMA) 记忆库，维护一个运行中的每ROI人群混杂分布估计，使得每个样本的混杂可以针对队列均值进行中心化，这是后门调整期望的一个低方差近似。整个干预仅增加几千个参数，并可以插入任何GNN骨干网络，使其成为一个即插即用的模块而非新的架构。在三个临床基准数据集（ADNI：NC vs. MCI，HCP：性别分类，OASIS：CDR三分类）上，我们的Artemis在多个类别中优于十个代表性的GNN基线，相对于普通GCN骨干网络，准确率分别提高了+20.9%，+27.9%，和+7.8%，AUC分别提高了+26.2%，+34.2%，和+8.0%。我们将贡献总结如下。

- •我们识别出区域特定的人口统计学混杂是多模态脑网络GNN中被忽视但至关重要的虚假捷径来源。
- •我们提出**Artemis**，通过公式化一个区域级后门调整，构建了一个仅需**7K**参数的轻量级即插即用干预模块，兼容任意GNN骨干网络。
- •在三个临床基准数据集上，Artemis在多个类别中持续优于十个代表性的GNN基线，在准确率、F1和AUC上均有显著提升。多项支持性分析验证了所公式化的区域级后门调整。

## 2 相关工作。

图2：Artemis流程。(1) 每ROI多模态特征及受试者级人口统计学矢量 d 作为输入。(2) 一个共享的MLP结合可学习的每ROI标记 roi\_emb_i 生成区域特定的混杂嵌入 c_i。(3) 一个每ROI的EMA记忆库存储c_i在训练种群上的运行均值，近似 E[c_i] 用于后门中心化。(4) 学习的门控 σ(W c_i^centered) 按元素 (⊙) 应用于**两者** f_i 和 s_i。(5) 调整后的特征输入任何GNN骨干网络进行下游预测。### 2.1 脑网络GNN。

图神经网络已成为学习脑连接组的主导范式。BrainNetCNN\[Kawahara2017BrainNetCNNCN\] 开创了适用于对称连接性的边到边和边到节点卷积，BrainGNN\[Li2020BrainGNNIB\] 引入了具有 top-K 池化机制的ROI感知图卷积，突出临床显著区域。最近，Transformer风格的架构已被适配到脑网络：BrainNetTF\[Kan2022BrainNT\] 采用了一个聚类读出模块，捕捉功能连接中的社区结构；BioBGT\[Peng2025BiologicallyPB\] 结合了光谱位置编码和社区引导的注意力机制，将生物学先验注入注意力机制。多模态扩展利用了功能和结构连接的互补性：Tang 等人\[Tang2024InterpretableSE\] 提出了一个用于阿尔茨海默病分期的可解释FC-SC融合框架；Yin 等人\[Yin2024AHG\] 通过异构图注意力对齐多视角连接。尽管架构多样，这些模型仅使用类别标签进行端到端训练，从未考虑与输入图和临床目标都共同变化的人口统计学变量，导致为了仅减少训练损失而利用人口统计学捷径。

### 2.2 图上的因果推理

一系列工作将因果推理注入通用GNN，通常通过将因果子图与虚假子图解耦：DIR\[wu2022discovering\] 将每个输入划分为不变和可变组件。CAL\[Sui2021CausalAF\] 通过因果注意力和do-calculus风格的训练实现这一点；GIL\[li2022learning\]、CIGA\[Chen2022LearningCI\]、GSAT\[miao2022interpretable\]、MoleOOD\[yang2022learning\] 以及 Fan 等人\[Fan2022DebiasingGN\] 通过图级不变性、稀疏随机注意力、环境不变特征或稳定学习目标扩展了这一议程。另一分支专门将因果性引入脑网络：CI-GNN\[zheng2024ci\] 使用格兰杰因果交互作为*事后*可解释性工具，在训练过程中没有任何调整。而Contrasformer\[xu2024contrasformer\] 通过对比图针对子群体偏移，这种偏移是分布性的而非 do-calculus 意义上的因果性；MediAD\[jin2025cross\] 则在患者级别追求一种重量级、LLM增强的跨模态因果视角。关于医学影像算法公平性日益增长的文献进一步强调了人口统计学属性常引发子群体差异\[seyyed2021underdiagnosis，petersen2023path\]，激励进行调整却未提供图级别的因果机制。在这两条线索中，混杂因素要么被视为*潜在图结构*，要么仅进行分布性处理，这些方法都没有针对*已观测到的*、已知先验且在临床脑网络研究中主导混杂的人口统计学变量进行调整。

## 3 方法论。

如图2 (https://arxiv.org/html/2606.18287#F2) 所示，我们概述了所提出的Artemis流程：一个区域特定的混杂编码器、一个EMA记忆库和一个门控多模态干预模块，可插入任何GNN骨干网络。以下小节对每个组件进行形式化描述。

### 3.1 问题形式化与因果图。

图3：脑网络分类的因果图。(a) 已观测的人口统计学变量 d 通过后门路径混淆了脑特征 X 和临床标签 Y。(b) Artemis通过在每个ROI对 d → X 路径进行干预来执行后门调整。对于每个受试者，我们给定一个多模态脑网络，该网络定义在包含 N 个感兴趣区域 (ROI) 的固定图谱上。功能连接矩阵 FC ∈ ℝ^{N×N} 由静息态fMRI计算得出，结构连接矩阵 SC ∈ ℝ^{N×N} 由DTI纤维束成像得到。我们将每个 ROI_i 视为一个节点，其多模态特征是其 FC 和 SC 行的拼接，记为 f_i ∈ ℝ^N 和 s_i ∈ ℝ^N，因此节点特征张量为 X = {(f_i, s_i)}_{i=1}^N。此外，每个受试者携带一个观测到的人口统计学向量 d ∈ ℝ^{d_demo}，包含年龄、性别和教育程度（实际涉及的属性取决于数据集），以及一个预测目标 y。

遵循神经影像分析领域最常用的后门路径（例如 *人口统计学* → *连接性* → *预测*），我们采用图3 (https://arxiv.org/html/2606.18287#F3) 所示的因果有向无环图：d → X，d → y，X → y，其中 d 是观测到的共同原因，即影像特征和临床标签的人口统计学因素。标准的 P(y|X) 最大似然训练使得后门路径 X ← d → y 保持开放，因此容易受到人口统计学捷径的影响。我们的目标是干预分布 P(y|do(X))，根据后门准则\[pearl2009causality\]，该分布可识别为：

(3.1) P(y|do(X)) = 𝔼_d[ P(y|X, d) ]。

关键在于，公式 (3.1 (https://arxiv.org/html/2606.18287#S3.E1)) 是在*特征*级别而非标签级别进行调整，它需要对 d 如何调节每个ROI特征进行建模，然后对 d 的种群分布进行边际化。

### 3.2 区域特定混杂编码器。

不同脑区对人口统计学因素表现出显著不同的敏感性，例如，海马体和内嗅皮层主要受年龄相关萎缩影响\[Alex2023AGM，Eickhoff2018ImagingbasedPO\]。对所有ROI统一应用单一的全局混杂向量无法尊重这种异质性。同时，实例化 N 个独立的MLP参数效率低下，且丢弃了跨区域的归纳偏置。

因此，我们通过一个共享的MLP结合一个可学习的每ROI标记来实现*区域特异性*。令 roi_emb ∈ ℝ^{N×d_{roi}} 是一个可学习的嵌入表，其第 i 行 roi_emb_i 是一个小的、随机初始化的身份向量，对应于 ROI_i。每ROI混杂嵌入为：

(3.2) c_i = MLP( [ d ; roi_emb_i ] ) ∈ ℝ^{d_c}，

Artemis: 基于解剖结构解析的多模态神经影像混杂因素消除干预

相似文章

虚拟节点引导的动态图神经网络用于缺失模态的脑肿瘤分割

ARM：采用统一离散表示的自回归大型多模态模型

@iScienceLuvr：学习稀疏潜在预测基础模型用于多模态神经影像本文介绍了Neuro-JEPA，一个基…

面向脑功能连接表征学习的网络感知双线性分词方法

探测、融合与可信度：面向多模态癌症分析的基础模型表征系统评估

提交意见反馈