面向脑功能连接表征学习的网络感知双线性分词方法

arXiv cs.AI 2026/05/15 04:00 论文

摘要

NERVE提出了一种网络感知的双线性分词方法，用于基于掩码自编码器的脑功能连接矩阵自监督学习，改善跨发育队列的表征学习。

arXiv:2605.14048v1 公告类型：新摘要：掩码自编码器（MAE）最近在静息态脑功能连接（FC）的自监督表征学习中显示出潜力。然而，一个基本问题仍未解决：如何对FC矩阵进行分词以与大规模脑网络的内在模块化组织对齐？现有方法通常采用以区域为中心或基于图的方案，这些方案将FC视为结构同质元素，而忽略了大尺度网络的大脑组织。我们引入了NERVE（通过双线性分词实现脑功能连接的网络感知表征），这是一种自监督学习框架，通过将FC矩阵划分为网络内和网络间连接块的片段来重新定义FC分词。与基于图像的MAE不同，在MAE中固定大小的片段共享一个共同的分词器，而由网络对定义的FC片段大小各异且对应不同的功能角色。为解决此问题，NERVE通过一种新颖的结构化双线性分解嵌入FC片段。该公式保留了网络身份，并将参数复杂度从网络数量的二次方降低到线性比例。我们在三个大规模发育队列（ABCD、PNC和CCNP）上评估NERVE，用于行为和精神病学预测。与结构无关的MAE变体和基于图的自监督基线相比，所提出的网络感知公式产生了更稳定和可迁移的表征，尤其在跨队列评估中。消融研究证实，所提出的双线性网络嵌入和解剖学基础分区对性能至关重要。这些发现强调了在功能连接组学的自监督学习中融入领域特定结构先验的重要性。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:19

# 面向大脑功能连接表示学习的网络感知双线性令牌化
Source: https://arxiv.org/html/2605.14048
11institutetext:放射学系, Weill Cornell 医学院, 纽约, NY, USA\.22institutetext:电子与计算机工程学院, Cornell University and Cornell Tech, 纽约, NY, USA\.22email:lem4012@med\.cornell\.edu

###### 摘要

掩码自编码器（MAE）近年来在静息态大脑功能连接（FC）的自监督表示学习方面显示出潜力。然而，一个基本问题仍未解决：如何将FC矩阵进行令牌化，以使其与大规模脑网络固有的模块化组织对齐？现有方法通常采用以区域为中心或基于图的方案，将FC视为结构上同质的元素，而忽略了大尺度网络的大脑组织。我们提出NERVE（通过双线性令牌化实现大脑功能连接的网络感知表示），这是一种自监督学习框架，通过将FC矩阵划分为网络内和网络间连接块的补丁，重新定义了FC令牌化。与基于图像的MAE（其中固定大小的补丁共享一个共同的令牌化器）不同，由网络对定义的FC补丁在大小上是异构的，并对应不同的功能角色。为了解决这个问题，NERVE通过一种新颖的结构化双线性分解来嵌入FC补丁。这种公式保留了网络身份，并将参数复杂度从二次方降低到网络数量的线性规模。我们在三个大规模发展队列（ABCD、PNC和CCNP）上评估了NERVE在行为和精神病学预测方面的表现。与结构无关的MAE变体和基于图的自监督基线相比，所提出的网络感知公式产生了更稳定和可迁移的表征，特别是在跨队列评估中。消融研究证实，所提出的双线性网络嵌入和解剖学基础的分区分割对性能至关重要。这些发现强调了将领域特定的结构先验纳入功能连接组学的自监督学习的重要性。

## 1 引言

静息态功能磁共振成像（rs-fMRI）能够估计功能连接（FC），即空间分布脑区之间的时间相关性。FC已成为研究大规模脑组织个体差异及其与认知、行为和心理健康关联的核心工具[15 (https://arxiv.org/html/2605.14048#bib.bib15),17 (https://arxiv.org/html/2605.14048#bib.bib17),14 (https://arxiv.org/html/2605.14048#bib.bib14),29 (https://arxiv.org/html/2605.14048#bib.bib29)]。然而，从FC中提取紧凑的预测性表征仍具挑战性，原因在于其高维度、低信噪比以及显著的个体间变异性[31 (https://arxiv.org/html/2605.14048#bib.bib31),2 (https://arxiv.org/html/2605.14048#bib.bib2),28 (https://arxiv.org/html/2605.14048#bib.bib28)]。实际上，大规模研究报告指出，增加模型复杂度并不能可靠地超越经典方法的性能[9 (https://arxiv.org/html/2605.14048#bib.bib9),23 (https://arxiv.org/html/2605.14048#bib.bib23),27 (https://arxiv.org/html/2605.14048#bib.bib27),10 (https://arxiv.org/html/2605.14048#bib.bib10)]，这表明可能需要更合适的归纳偏置。

掩码自编码器（MAE）[8 (https://arxiv.org/html/2605.14048#bib.bib8)] 通过将输入划分为单元、将每个单元嵌入到令牌表示、掩码一部分令牌并从可见令牌重建掩码内容，为表示学习提供了一个规范性框架。在计算机视觉中，这些单元对应于空间图像补丁，自然与局部结构对齐。然而，当应用于FC时，“补丁”的概念缺乏规范定义，因为FC矩阵中区域的排列在很大程度上是任意的，并不一定反映空间或功能局部性。因此，在为FC应用MAE时，定义适当的补丁单元及其对应的令牌嵌入变得至关重要。现有方法在掩码之前采用启发式令牌化方案[4 (https://arxiv.org/html/2605.14048#bib.bib4),32 (https://arxiv.org/html/2605.14048#bib.bib32),3 (https://arxiv.org/html/2605.14048#bib.bib3),20 (https://arxiv.org/html/2605.14048#bib.bib20),6 (https://arxiv.org/html/2605.14048#bib.bib6)]。例如，BrainMass[32 (https://arxiv.org/html/2605.14048#bib.bib32)]将单个区域视为单元并随机掩码FC矩阵的行，而RS-MAE[20 (https://arxiv.org/html/2605.14048#bib.bib20)]则受时空策略启发掩码分组区域。基于图的方法类似地操作节点级嵌入，其中掩码应用于节点令牌[5 (https://arxiv.org/html/2605.14048#bib.bib5),12 (https://arxiv.org/html/2605.14048#bib.bib12),22 (https://arxiv.org/html/2605.14048#bib.bib22),30 (https://arxiv.org/html/2605.14048#bib.bib30)]。尽管结果令人鼓舞，但一个基本问题仍然存在：如何将FC矩阵划分为补丁并嵌入到令牌中，以使学习到的表示与脑FC的模块化、网络级组织对齐？

参见图 1：NERVE 概览。A. 功能连接（FC）矩阵被划分为由功能脑网络对定义的补丁。B. 网络感知双线性令牌化。每个功能网络在初始化时分配可学习的网络特定权重，并通过前向过程中网络权重之间的结构化双线性相互作用计算补丁令牌。C. MAE 框架。我们将标准 MAE 框架应用于所提出的网络感知令牌，从而在连接结构上引入功能知情的归纳偏置。

我们的核心见解是，图像中空间相邻像素的概念类比是共享相似功能动态的脑区组，例如组织成大规模功能网络的区域[33 (https://arxiv.org/html/2605.14048#bib.bib33)]。在这种观点下，图像补丁的自然对应物是由网络内或网络间相互作用定义的连接块。然而，一个关键挑战出现了：由网络对定义的FC补丁维度不同，这排除了使用共享补丁编码器的可能性。此外，每个网络具有不同的功能角色，这表明令牌化应保留网络身份，而不是将所有补丁折叠到一个同质的表示空间中。为了解决这个问题，我们引入了一种新颖且参数高效的双线性令牌化方案。我们不学习每个网络对补丁的独立嵌入，而是学习网络特定的区域嵌入，并通过双线性相互作用建模网络间连接。这种分解将补丁特定参数的二次增长替换为网络数量的线性增长，同时显式编码网络身份以及结构化的网络内和网络间相互作用。

将该设计集成到MAE框架中，我们提出NERVE（通过双线性令牌化实现大脑功能连接的网络感知表示），这是一种针对脑FC模块化组织量身定制的自监督方法。我们在三个大规模青少年神经影像队列上评估了NERVE在预测行为和精神病学评分这一具有挑战性的任务上的表现。我们的结果表明，NERVE学习了更具信息性和可迁移性的FC表示，优于替代令牌化策略和现有自监督学习方法。

## 2 方法

令 \(\mathcal{D}=\{X^{(i)}\}_{i=1}^{N}\) 表示 \(N\) 个参与者的FC矩阵，其中每个 \(X^{(i)} \in \mathbb{R}^{R \times R}\) 是根据跨越 \(R\) 个脑区的功能时间序列构建的相关矩阵。我们的目标是以自监督方式学习 \(X\) 的结构化和可迁移表示。为此，我们采用基于Transformer的MAE框架，该框架将 \(X\) 划分为补丁，将每个补丁编码为令牌，随机掩码一部分令牌，并从可见令牌重建掩码内容。

**基于网络的补丁划分。** 数据划分成补丁的方式决定了模型能通过掩码和重建利用什么样的结构。虽然基于图像的MAE依赖于将图像自然地分解为固定大小的图像补丁，但FC矩阵缺乏规范的补丁方案，使得令牌化成为一个非平凡的设计选择。我们不将 \(X\) 的行视为补丁[4 (https://arxiv.org/html/2605.14048#bib.bib4),32 (https://arxiv.org/html/2605.14048#bib.bib32),3 (https://arxiv.org/html/2605.14048#bib.bib3)]，而是注意到图像中相邻像素的概念类比是共享相似功能动态的脑区组。这种组织结构由大规模功能网络捕获[33 (https://arxiv.org/html/2605.14048#bib.bib33)]。因此，我们建议通过将 \(R\) 个区域分组为 \(N_{n}\) 个已建立的功能网络 \(\{\mathcal{N}_{1},\dots,\mathcal{N}_{N_{n}}\}\)（例如，视觉网络、默认网络、背侧注意网络）来重新组织 \(X\)。对于每个网络对 \((l,m)\)，其中 \(l \leq m\)，我们定义一个连接块：\(x_{l,m} \in \mathbb{R}^{|\mathcal{N}_{l}| \times |\mathcal{N}_{m}|}\) 表示网络内（\(l=m\)）或网络间（\(l<m\)）的连接（图1 (https://arxiv.org/html/2605.14048#S1.F1) A）。这些连接补丁随后被视为掩码和重建的基本单元。补丁总数为：\(N_{\text{patch}} = \frac{N_{n}(N_{n}+1)}{2}\)。

**共享与补丁特定令牌化。** 在基于图像的MAE中，补丁大小固定且可互换，从而允许在令牌化中使用共享投影。在这里，由网络定义的补丁大小不同，并对应特定的网络相互作用，使其在结构和语义上截然不同。因此，嵌入这些不规则且网络特定的补丁需要一种专门的网络感知令牌化策略。将基于图像的MAE直接应用于FC的一种简单方法是将每个补丁 \(x_{l,m}\) 展平并通过线性变换（记为共享线性）投射：\(t_{l,m} = W^{\top} \mathrm{vec}(x_{l,m})\)，其中 \(W \in \mathbb{R}^{S_{\max} \times d_{E}}\)，\(d_{E}\) 是编码器嵌入维度，\(S_{\max} = \max_{l,m} |\mathcal{N}_{l}|\cdot |\mathcal{N}_{m}|\) 是最大展平补丁大小。由于补丁大小不同，需要零填充到最大补丁大小 \(S_{\max}\)。虽然参数高效，但这种共享投影在语义上不同的网络相互作用之间强制执行共同表示，并忽略了FC的结构异质性。另一种选择是为每个网络对分配一个不同的投影层（记为补丁特定线性）：\(t_{l,m} = W_{l,m}^{\top} \mathrm{vec}(x_{l,m})\)，其中 \(W_{l,m} \in \mathbb{R}^{(|\mathcal{N}_{l}||\mathcal{N}_{m}|) \times d_{E}}\)。虽然这允许补丁特定（网络对）建模，但它引入了参数相对于网络数量 \(N_{n}\) 的二次增长，这很快变得不切实际并有过度拟合风险。

**双线性令牌化。** 为了在保持参数效率的同时保持网络特异性，我们提出一种双线性网络感知令牌化。每个功能网络 \(\mathcal{N}_{l}\) 被分配一个可学习矩阵 \(U_{l} \in \mathbb{R}^{|\mathcal{N}_{l}| \times d_{E}}\)，其中每一列代表一个网络特定的嵌入维度。对于网络 \(l\) 和 \(m\) 之间的FC补丁 \(x_{l,m} \in \mathbb{R}^{|\mathcal{N}_{l}| \times |\mathcal{N}_{m}|}\)，我们通过列式Kronecker（Khatri–Rao）[16 (https://arxiv.org/html/2605.14048#bib.bib16)] 乘积（图1 (https://arxiv.org/html/2605.14048#S1.F1) B）构建对应的令牌化器：

\[
W_{l,m} = U_{l} \odot U_{m} \in \mathbb{R}^{(|\mathcal{N}_{l}||\mathcal{N}_{m}|) \times d_{E}}, \quad t_{l,m} = W_{l,m}^{\top} \mathrm{vec}(x_{l,m}) \in \mathbb{R}^{d_{E}}.
\]

其中 \(\odot\) 表示逐元素定义的Khatri–Rao乘积：\([W_{l,m}]_{(i,j),k} = [U_{l}]_{i,k}[U_{m}]_{j,k}\)。概念上，我们不学习每个网络对的独立投影，而是学习网络级区域嵌入，并将网络间连接建模为它们之间的双线性相互作用。区域 \(i \in \mathcal{N}_{l}\) 和区域 \(j \in \mathcal{N}_{m}\) 之间的连接对嵌入维度 \(k\) 的贡献由乘积 \([U_{l}]_{i,k}[U_{m}]_{j,k}\) 给出，在跨网络共享参数的同时捕获结构化相互作用。这种补丁特定投影的低秩分解将补丁特定参数的二次增长替换为网络数量的线性增长，同时显式编码网络身份以及结构化的网络内和网络间相互作用。具体来说，如果我们假设 \(R\) 个脑区大致均匀分布在 \(N_{n}\) 个网络中，则可以近似 \(S_{\max} \approx (R/N_{n})^{2}\)。在此假设下，共享线性、补丁特定线性和双线性嵌入的参数复杂度分别为：\(\mathcal{O}\left(\frac{R^{2}}{N_{n}^{2}} \times d_{E}\right)\)，\(\mathcal{O}\left(R^{2} \times d_{E}\right)\) 和 \(\mathcal{O}\left(R \times d_{E}\right)\)，这突出了参数效率与表达性之间的权衡，通过将复杂度从通用、补丁特定表示转移到以网络为中心的表示。

**FC的MAE。** 给定网络感知令牌序列 \(T \in \mathbb{R}^{N_{\text{patch}} \times d_{E}}\)，预先添加一个可学习的CLS令牌，并添加可学习的位置嵌入以编码每个网络对的身份。对于每个受试者，随机掩码固定比例的补丁令牌，仅由Transformer编码器处理可见令牌，生成上下文化的表示。为了重建掩码连接，首先在掩码位置插入掩码令牌，然后由轻量级Transformer解码器处理完整的令牌序列。然后，使用与令牌化方案一致的双线性解码层将解码后的令牌投影回FC补丁空间，生成重建补丁 \(\hat{x}_{l,m}\)（图1 (https://arxiv.org/html/2605.14048#S1.F1) C）。重建目标为：\(\mathcal{L}_{\text{recon}} = \frac{1}{|\mathcal{M}|}\sum_{(l,m) \in \mathcal{M}} \left\| \hat{x}_{l,m} - x_{l,m} \right\|_{2}^{2}\)。

**实现细节。** 我们使用Schaefer的17网络分区（\(R=400\), \(N_{n}=17\), \(N_{\text{patch}}=153\)）[26 (https://arxiv.org/html/2605.14048#bib.bib26)]，掩码比为0.5。编码器使用4层，4个头，\(d_{E}=256\)。解码器具有

面向脑功能连接表征学习的网络感知双线性分词方法

相似文章

BrainG3N: 一种用于可控3D脑部MRI生成的双用途分词器

稀疏自编码器将大脑-LLM对齐映射到皮层语义拓扑

基于混合潜空间建模的结构连接组获取变异无监督学习

LDARNet：用于基因组建模的具有可学习分词的DNA自适应表示网络

通过孪生自监督学习从fMRI中学习鲁棒且任务不变的功能表征

提交意见反馈