用于fMRI编码和解码任务的非局部算子学习

arXiv cs.LG 2026/05/21 04:00 论文

fMRI neural-operators encoding-decoding spatiotemporal deep-learning brain-dynamics

摘要

研究基于神经积分算子的fMRI编码和解码任务模型，重点关注非局部时空上下文的作用，并表明更大的时间窗口可提升跨数据集的性能。

arXiv:2605.20389v1 公告类型：新摘要：功能磁共振成像（fMRI）数据呈现高维时空结构，使得预测和解码均具有挑战性。本研究探讨了基于神经积分算子的模型在fMRI编码和解码任务中的应用，特别关注非局部时空上下文的作用。我们实现了一个潜在神经积分算子框架，该框架在辅助空间中进行定点迭代，通过解码器执行分类和刺激预测。我们在两个开源fMRI数据集上评估了模型。实验涵盖了从fMRI记录中解码刺激，以及从刺激表示中编码fMRI动态。主要关注点是时空上下文的影响：我们系统地比较了短时间窗口与长时间窗口，以及使用视觉皮层与全脑记录，并分析了它们对性能和潜在空间几何结构的影响。在各种任务和数据集中，较大的时间窗口通常能改善结果，并产生更结构化的学习表示。在解码实验中，学习到的潜在空间通常比原始数据提供更清晰的类别分离。在编码实验中，尽管由于任务难度绝对性能仍然中等，但较长的时间窗口仍然带来一致的增益。这些发现表明，神经积分算子为建模fMRI动态提供了一个有前景的框架，更广泛的时空上下文可能对预测和表示学习都有益。更广泛地说，结果表明，利用大脑动力学中的分布式非局部结构需要专门设计的模型架构来捕捉这些依赖关系。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:24

# 基于非局部算子的fMRI编码与解码任务学习
来源：https://arxiv.org/html/2605.20389
Andreas Kramer 计算机科学系，爱达荷州立大学 921 S. 8th Ave Mail Stop 8060, Pocatello, ID 83209-8023 [email protected]  
Saugat Acharya 计算机科学系，爱达荷州立大学 921 S. 8th Ave Mail Stop 8060, Pocatello, ID 83209-8023 [email protected]  
Alice Giola 数学与统计系，爱达荷州立大学 Physical Science Complex, 921 S. 8th Ave., Stop 8085, Pocatello, ID 83209 [email protected]  
Emanuele Zappala 数学与统计系，爱达荷州立大学 Physical Science Complex, 921 S. 8th Ave., Stop 8085, Pocatello, ID 83209 [email protected] ORCID: 0000-0002-9684-9441

###### 摘要

功能性磁共振成像（fMRI）数据具有高维时空结构，这使得预测和解码都极具挑战性。在本工作中，我们研究了基于神经积分算子的模型，用于fMRI的编码和解码任务，特别关注非局部时空上下文的作用。我们实现了一个潜在神经积分算子框架，该框架在辅助空间中进行不动点迭代，并通过解码器实现分类和刺激预测。我们在两个开源fMRI数据集上评估了我们的模型。

我们的实验既包括从fMRI记录中解码刺激，也包括从刺激表征中编码fMRI动态。主要关注的是时空上下文的影响：我们系统地比较了短时间窗口和长时间窗口，以及使用视觉皮层与全脑记录，并分析它们对性能和潜在空间几何的影响。在各种任务和数据集中，更大的时间窗口通常能改善结果，并产生更结构化的学习表示。在解码实验中，学习到的潜在空间通常比原始数据提供更清晰的类别分离。在编码实验中，尽管由于任务难度，绝对性能仍然适中，但更长时间窗口仍能带来一致性的提升。

这些发现表明，神经积分算子为建模fMRI动态提供了一个有前景的框架，并且更广泛的时空上下文可能对预测和表示学习都有益。更广泛地说，结果表明，利用大脑动态中的分布式非局部结构需要专门设计用于捕获这种依赖性的模型架构。

## 1 引言

从神经影像数据理解大脑动态是计算神经科学的一个核心问题[JSS+22 (https://arxiv.org/html/2605.20389#bib.bibx16)]。在可用的模态中，功能性磁共振成像（fMRI）提供了大规模脑活动的特别丰富的视图，捕获了在空间和时间上演化的信号。同时，这些动态的复杂性使得建模和预测变得困难[RML+22 (https://arxiv.org/html/2605.20389#bib.bibx31)]。近年来，深度学习方法已成为分析脑数据越来越重要的工具[LZ23 (https://arxiv.org/html/2605.20389#bib.bibx25)]，为高维设置中的预测、解码和表示学习提供了灵活的框架。

尽管取得了这些进展，但在fMRI数据集上进行建模、解释和执行高级下游任务仍然具有挑战性。通过fMRI记录的脑活动反映了分布在不同遥远区域并在长时间尺度上展开的相互作用[CPL+25 (https://arxiv.org/html/2605.20389#bib.bibx7)]，同时还包含诸如血液动力学平滑和延迟等测量效应。标准深度学习架构可以捕获这些动态的某些方面，但它们通常依赖于局部性或短程依赖性的假设，这可能对这种设置来说过于严格。这些考虑促使我们研究能够自然表示空间分布和时间扩展的相互作用的模型。

为此，非局部神经算子[ZFC+24 (https://arxiv.org/html/2605.20389#bib.bibx39), ZFM+23 (https://arxiv.org/html/2605.20389#bib.bibx40)]提供了一个自然框架。特别是，积分算子提供了一种简单而灵活的方式来建模不限于空间或时间局部邻域的依赖性。基于注意力神经积分方程（ANIE）模型[ZFC+24 (https://arxiv.org/html/2605.20389#bib.bibx39)]，我们考虑了一种在潜在空间中作用的神经积分算子架构，并将其应用于研究fMRI动态的编码和解码问题。这种视角使我们能够将相关映射视为学习到的非局部算子，而不是纯粹的点态或短记忆变换。

我们在本工作中的目标不仅是评估预测性能，还要研究这种基于非局部算子的方法是否能作为计算神经影像学中有用的建模工具。为此，我们针对fMRI数据优化了ANIE框架，并在编码和解码任务上对其进行了评估。所提出的方法旨在直接处理fMRI信号的时空结构，同时保持足够的灵活性以在具有挑战性的设置中产生信息的潜在表示和准确的预测。

作为非局部建模相关性的具体例证，我们详细考察了时空上下文的作用。在两个开源数据集上的实验中，我们比较了模型在较短和较长时间窗口下的行为，并分析了这对预测质量和潜在空间结构的影响。我们发现，增加时间窗口通常会导致性能提升和更有意义的学习表示。我们还考虑了模型在不同空间脑信息下的行为，并观察到在解码任务中，访问视觉皮层兴趣区（ROI）与访问全脑信息相比，会影响分类的质量。这些结果表明，时空扩展的上下文在研究fMRI动态中起着重要作用，并说明了非局部神经算子如何为研究这种效应提供有用的框架。

## 2 相关工作概述

深度学习近年来已越来越多地应用于对与脑记录相关的脑状态和外部刺激进行分类和重建[KTS25 (https://arxiv.org/html/2605.20389#bib.bibx19)]。由卷积网络组成的深度神经网络被用于[WLJ+20 (https://arxiv.org/html/2605.20389#bib.bibx36)]中解码多种脑任务，以及在[ZZM+17 (https://arxiv.org/html/2605.20389#bib.bibx41)]中学习空间特征。变分自编码器（VAEs）被应用于[GUF+24 (https://arxiv.org/html/2605.20389#bib.bibx12)]中研究脑连接模式与脑状态之间的关系。在[SCKS15 (https://arxiv.org/html/2605.20389#bib.bibx32)]中，使用递归神经网络（RNNs）从脑活动中解码了猴子的运动，而伸手运动学则在[POC+18 (https://arxiv.org/html/2605.20389#bib.bibx29)]中使用序列自编码器，以及在[GBC+20 (https://arxiv.org/html/2605.20389#bib.bibx10), ACB19 (https://arxiv.org/html/2605.20389#bib.bibx1)]中使用长短期记忆（LSTM）模型进行了研究。基于深度学习的贝叶斯方法用于神经解码在[KMNM24 (https://arxiv.org/html/2605.20389#bib.bibx18)]中进行了研究。更一般地说，编码和解码方法已成为将脑活动与行为、感知和内部表征联系起来的核心框架[LYMD+24 (https://arxiv.org/html/2605.20389#bib.bibx24)]。

除了体素级或局部结构模型之外，一个重要的研究方向通过功能连接和基于图的学习强调了分布式和全脑结构[VVW+23 (https://arxiv.org/html/2605.20389#bib.bibx34), MK24 (https://arxiv.org/html/2605.20389#bib.bibx26), HSH+ (https://arxiv.org/html/2605.20389#bib.bibx15)]。早期研究表明，认知状态可以从全脑连接模式中解码，而最近的工作则开发了图神经网络和时空图模型，用于任务fMRI解码和可解释的脑状态分析。同时，基于变换器[BSD+23 (https://arxiv.org/html/2605.20389#bib.bibx5), KKJ+23 (https://arxiv.org/html/2605.20389#bib.bibx17), AOO23 (https://arxiv.org/html/2605.20389#bib.bibx4)]和掩码自编码方法[GGQZ25 (https://arxiv.org/html/2605.20389#bib.bibx11)]已经开始出现在fMRI分析中，其动机是它们能够捕获全局空间和时间上下文。基于生成对抗网络（GANs）、扩散模型和贝叶斯重建框架的生成方法进一步扩展了神经解码的范围，特别是在视觉重建设置中[LY22 (https://arxiv.org/html/2605.20389#bib.bibx23), LCP+22 (https://arxiv.org/html/2605.20389#bib.bibx21)]。

我们的工作更接近后一类全局结构模型的精神，但不同之处在于它通过作用于潜在时空表示的神经积分算子来表述。这种视角是由fMRI动态的分布式和长时间扩展性质所驱动的，并为主张基于卷积、递归或图消息传递的架构提供了一种明确的非局部替代方案。

## 3 问题形式化与方法

fMRI扫描是空间和时间的函数。因此，我们可以将大脑视为作用于包含fMRI记录的某个合适函数空间上的算子。BOLD信号是一个函数\(u(x,t)\)，其中\(x\)是指示所关注脑区坐标的向量，\(t\)是时间。通过神经算子处理信号使我们能够获得模型的解析不变性，从而减少对体素的依赖。在实践中，空间坐标代表fMRI记录的体素，而时间坐标代表记录的时间帧。图1展示了获取和预处理fMRI数据所执行的一般步骤。

参照图注

图1：fMRI数据采集和预处理的示意图。面板1显示呈现给患者的刺激。面板2显示患者视觉皮层中对应的大脑信号。面板3显示对应的血液动力学响应和在体素水平记录的BOLD信号。面板4显示(3+1)D fMRI记录。面板5列出对每次记录应用的主要预处理步骤。面板6显示用于训练我们深度学习模型的数据集。

### 3.1 解码问题

解码任务包括从给定的信号记录中确定输入刺激。这实际上是一个反向过程，我们利用动态来推导出导致该动态的输入。我们将代表大脑功能的算子记为\(T\)，将BOLD信号所属的函数空间记为\(X\)，将模型记为\(T_\theta\)。这里\(\theta\)表示模型对训练过程中需要确定的参数的神经网络依赖性。我们将BOLD信号视为形如

\[T(u) + u_{\rm lat} = u, \tag{1}\]

的不动点方程，其中\(u_{\rm lat}\)是通过编码器\(E\)获得的BOLD信号的潜在表示，该编码器将BOLD信号空间映射到训练过程中学习到的潜在空间。方程(1)的不动点\(u^*\)被视为与刺激\(y_{\rm stim}\)直接相关的粗粒度表示。因此，后者是从\(u^*\)回归得到的。

参照图注

图2：解码和编码问题的示意图。在解码问题中，如面板a所示，目标是利用fMRI大脑动态来预测在相应数据采集期间呈现给患者的刺激。面板b显示了编码问题，其中模型使用刺激来预测相应的fMRI信号。

### 3.2 编码问题

编码任务表示将输入刺激与fMRI大脑动态关联起来的前向过程。这些任务的目的是将刺激与BOLD信号关联起来。在这种情况下，函数\(u_{\rm lat}\)是刺激的潜在表示，而方程(1)的不动点解\(u^*\)被视为一个编码函数，可用于预测真实的BOLD信号\(u\)。在实践中，我们使用解码器\(D\)将潜在空间映射到BOLD信号空间，并以\(D(u^*) = u\)的方式学习它。

### 3.3 非局部算子模型

通过fMRI测量到的大脑动态源于分布在空间中的神经群体的相互作用，这些相互作用随时间演化，并具有显著的延迟和记忆效应。这些在空间和时间层面的长距离效应已被多位学者研究[CPL+25 (https://arxiv.org/html/2605.20389#bib.bibx7), YKS+11 (https://arxiv.org/html/2605.20389#bib.bibx37), FSV+05 (https://arxiv.org/html/2605.20389#bib.bibx9), DNX+13 (https://arxiv.org/html/2605.20389#bib.bibx8), TvWM+13 (https://arxiv.org/html/2605.20389#bib.bibx33), He11 (https://arxiv.org/html/2605.20389#bib.bibx13), LCP+19 (https://arxiv.org/html/2605.20389#bib.bibx20), ZFC+14 (https://arxiv.org/html/2605.20389#bib.bibx38)]。

捕获这些特性需要超越严格局部动态假设（即基于ODE/PDE的模型）的模型。在这里上下文中，局部性意味着函数空间之间的算子\(T\)仅依赖于输入函数/信号的邻域。相比之下，非局部算子的特征在于，对一般函数\(f\)评估\(T(f)\)不能仅通过知道\(f\)的邻域来计算。换句话说，空间分布和时间延迟或记忆效应被纳入了算子中。

此外，大脑动态涉及多种类型的非局部性。

#### 3.3.1 空间非局部性

神经活动通过长距离解剖和功能通路传播，包括白质束和大规模功能网络。因此，在给定脑位置观察到的BOLD信号不能仅由其直接空间邻域的活动充分解释。

这种活动不能自然地由局部卷积滤波器或固定的图邻域表示，因为这些方法对连接性施加了先验约束。

非局部算子允许任何一对空间位置之间的相互作用直接从数据中学习，而无需显式的图构建或预定义的连接矩阵。

#### 3.3.2 时间非局部性

fMRI信号表现出显著的时间依赖性，这些依赖性超出了短期自回归效应，并包括随时间传播的远程记忆效应。随时间推移的神经整合意味着当前BOLD信号不仅反映了瞬时神经状态，还反映了先前活动的历史。

非局部算子建模使我们能够自然地整合整个动态时间框架，以考虑这些时间上的长程依赖性。

#### 3.3.3 积分算子模型

在数学和应用中广泛研究的一类非局部算子是积分算子类。在此框架中，非局部性通过一个包含时间（视频记录的帧）和空间（视频中看到的大脑位置）的积分来表达。模型本身由积分算子的核决定，这是一个函数

用于fMRI编码和解码任务的非局部算子学习

相似文章

元学习上下文学习实现无需训练的跨被试脑解码

在慢速fMRI上微调语言编码模型提升对快速ECoG的预测

跨语言模型架构的神经激活模式：认知任务性能的综合分析

变系数波动方程下神经算子的频率偏差与分布外泛化

UFO: 一种无需域统一的操作符框架，用于通用操作符学习

提交意见反馈