在慢速fMRI上微调语言编码模型提升对快速ECoG的预测
摘要
本文表明,尽管fMRI的时间分辨率较低,但在fMRI数据上微调语言编码模型能提升其对ECoG记录中神经活动的预测能力。研究结果表明,丰富的'慢速'fMRI数据可以增强针对'快速'ECoG数据的模型。
查看缓存全文
缓存时间: 2026/05/20 08:24
# 在慢速 fMRI 上微调语言编码模型可提升对快速 ECoG 的预测性能 来源:https://arxiv.org/html/2605.19224 Aditya R. Vaidya 计算机科学系 德克萨斯大学奥斯汀分校,美国 [email protected] Richard J. Antonello 祖克曼心智·大脑·行为研究所 哥伦比亚大学,美国 [email protected] Alexander G. Huth 神经科学与统计学系 加州大学伯克利分校,美国 [email protected] ###### 摘要 神经科学家近年来开始转向颅内脑记录方法,如皮层脑电图(ECoG),用于人类实验,因为这些方法提供了精细的空间和时间分辨率。然而,基于这些数据训练的模型从根本上受限于能够接受植入手术的患者群体。我们提出利用非侵入式 fMRI 来弥合训练数据上的差距。通过使用在 fMRI 上微调过的语言表示,我们构建了 ECoG 的编码模型。尽管 fMRI 的时间分辨率比 ECoG 差两个数量级,但这些表示在 ECoG 上的预测性能仍然有所提升。预测在远高于 fMRI 直接测量的频带上也得到了改善。接下来,为了测试该方法的泛化能力,我们在时间上降采样 2 倍的 fMRI 响应上微调了模型。尽管分辨率有所损失,这些模型在预测 fMRI 和 ECoG 响应方面的表现与原始 fMRI 微调模型相当。最后,我们展示了 ECoG 性能随 fMRI 微调数据量的增加而稳步提升。我们的结果表明,像 fMRI 这样的“慢速”数据可以成为构建更好的“快速”脑数据(如 ECoG)模型的宝贵资源。未来,跨多种记录方法的整合可能进一步提升在其他应用(如解码)中的性能。 ## 1 引言 许多神经科学实验使用从颅内电极记录的数据,这些电极是临床治疗中通过外科手术植入人类患者的。在皮层脑电图(ECoG)中,电极以网格形式排列,直接贴附于大脑表面。如此靠近脑组织的电极能够以高时间和空间精度记录神经活动,从而构建详细的编码模型来预测由刺激诱发的大脑活动。这些编码模型随后可用于回答神经科学研究问题 [Mesgarani 等人,2014](https://arxiv.org/html/2605.19224#bib.bib25);[Keshishian 等人,2026](https://arxiv.org/html/2605.19224#bib.bib15),或用于脑机接口(BCI)等下游应用 [Tang 等人,2023](https://arxiv.org/html/2605.19224#bib.bib37);[Littlejohn 等人,2025](https://arxiv.org/html/2605.19224#bib.bib20)。 颅内记录的缺点是数据集规模小且稀少。ECoG 电极仅在临床必要时植入,并且通常在几天内移除 [Chang,2015](https://arxiv.org/html/2605.19224#bib.bib3);[Mercier 等人,2022](https://arxiv.org/html/2605.19224#bib.bib24)。电极的数量及其放置位置也因患者而异,取决于他们的临床需求。这严重限制了从每个个体收集的数据量,使得构建精细的编码模型变得困难。相比之下,非侵入式测量,如功能性磁共振成像(fMRI)——虽然时间分辨率远低于 ECoG——但易于重复获取,并且具有全脑覆盖。能否利用丰富的 fMRI 数据来改进颅内数据的编码模型? 现代编码模型通常基于预训练的深度神经网络。语言编码模型常使用在大型文本语料库上预训练的神经网络语言模型 [Jain & Huth,2018](https://arxiv.org/html/2605.19224#bib.bib13);[Caucheteux & King,2022](https://arxiv.org/html/2605.19224#bib.bib2),或是在音频语料库上预训练的语音模型 [Vaidya 等人,2022](https://arxiv.org/html/2605.19224#bib.bib39);[Millet 等人,2022](https://arxiv.org/html/2605.19224#bib.bib26);[Tuckute 等人,2023](https://arxiv.org/html/2605.19224#bib.bib38)。这些网络大多被用作冻结的特征提取器 [Kell 等人,2018](https://arxiv.org/html/2605.19224#bib.bib14);[Oota 等人,2024](https://arxiv.org/html/2605.19224#bib.bib33),但在更近期的“脑调谐”研究中,网络也在脑数据上进行微调以提升编码性能 [Moussa 等人,2024](https://arxiv.org/html/2605.19224#bib.bib28);[Negi 等人,2025](https://arxiv.org/html/2605.19224#bib.bib31)。fMRI 调谐模型相对于预训练模型提升了预测性能 [Vattikonda 等人,2025](https://arxiv.org/html/2605.19224#bib.bib40),并且能够泛化到新被试或不同脑区的 fMRI 数据 [Moussa & Toneva,2025](https://arxiv.org/html/2605.19224#bib.bib27)。由于 ECoG 数据集规模有限,微调具有挑战性,但 fMRI 调谐模型可能通过学习更多类似脑的表示,从而泛化到 ECoG。这将使 ECoG 编码模型的性能能够随着可用 fMRI 数据集的规模而扩展。 ECoG 编码模型能从 fMRI 数据微调中受益的想法令人惊讶但并非不可能。ECoG 测量的是大脑中毫秒尺度变化的电活动,而 fMRI 测量的是数秒内变化的血流量——至少慢 2 个数量级。然而,尽管采样率低,fMRI 信号对快速时间尺度的刺激特性很敏感。例如,在听觉皮层中,fMRI 响应可以依赖于比 fMRI 信号本身快得多的时间调制 [Overath 等人,2015](https://arxiv.org/html/2605.19224#bib.bib34);[Schönwiesner & Zatorre,2009](https://arxiv.org/html/2605.19224#bib.bib36)。更近期的研究表明,听觉皮层对语音的 fMRI 响应可以使用 HuBERT [Hsu 等人,2021](https://arxiv.org/html/2605.19224#bib.bib10)、WavLM [Chen 等人,2021](https://arxiv.org/html/2605.19224#bib.bib4) 或 Whisper [Radford 等人,2022](https://arxiv.org/html/2605.19224#bib.bib35) 等网络进行良好建模。这些模型的 fMRI 预测性能通过 fMRI 数据微调得到提升 [Moussa 等人,2024](https://arxiv.org/html/2605.19224#bib.bib28);[Vattikonda 等人,2025](https://arxiv.org/html/2605.19224#bib.bib40)。而且,相同的网络也可以非常有效地预测 ECoG 对语音的响应 [Li 等人,2022](https://arxiv.org/html/2605.19224#bib.bib18)。这些结果都支持了 fMRI 调谐模型能够改进 ECoG 预测性能的可能性。  图 1:fMRI 到 ECoG 的迁移通过 fMRI 调谐实现。我们将深度语音表示模型 WavLM Base+ [Chen 等人,2021](https://arxiv.org/html/2605.19224#bib.bib4) 的第 9 层进行微调,以预测口语语言引发的 fMRI 响应(以 0.5 Hz 测量)。然后,我们冻结 WavLM 模型的权重,并使用其表示为来自独立数据集的 ECoG 对语音的响应(以 20 Hz 测量)构建线性化编码模型。成功执行此任务需要学习跨脑记录方法有用且对新被试和刺激鲁棒的表示。 在本工作中,我们证明了在 fMRI 上微调的编码模型能够泛化到新的被试、刺激和记录方法(图 1)。尽管两种方法之间的时间分辨率存在差异,但在 fMRI 上微调的模型仍能提升 ECoG 的预测性能。我们通过对降采样后的 fMRI 响应进行微调,来压力测试该过程的“时间分辨率泛化”能力。尽管采样率仅为 0.25 Hz,与预训练模型相比,在这些响应上微调仍然在 ECoG 预测性能上带来了显著提升。我们表明,这种慢速到快速的泛化甚至适用于 fMRI 数据本身;在降采样后的 fMRI 响应上微调的模型,预测原始 fMRI 响应的能力优于预训练模型。最后,我们展示了 ECoG 性能随 fMRI 微调数据量的增加而稳步提升,这表明尽管时间分辨率差异巨大,但扩大 fMRI 语言数据集可使神经科学或 BCI 应用中的 ECoG 模型受益。 ## 2 数据与方法 ### 2.1 fMRI 数据 我们使用了 LeBel 等人(2023)[LeBel 等人,2023](https://arxiv.org/html/2605.19224#bib.bib17) 和 Tang 等人(2023)[Tang 等人,2023](https://arxiv.org/html/2605.19224#bib.bib37) 发布公开数据集中的预处理 fMRI 数据,这些数据来自 3 名参与者在聆听 94–103 个自然叙述故事(每位参与者 17.8–19.7 小时)时记录的 fMRI 扫描。这些故事捕捉了一系列可能在全局脑记录(如 fMRI)中比在更受限的颅内数据集中更易捕获的响应。其中三个故事多次呈现给被试:两个故事(“fromboyhoodtofatherhood” 和 “onapproachtopluto”)各呈现五次,一个故事(“wheretheressmoke”)呈现十次。我们对重复呈现的响应进行了平均,以减少测量噪声。 ### 2.2 语音编码模型 在本工作中,我们构建线性化语音编码模型,旨在估计对刺激 $S$ 的响应 $R$,形式为: $$ \hat{R}_t = f(S_t; \theta) \beta \tag{1} $$ 其中 $f: \mathbb{S} \rightarrow \mathbb{R}^F$ 是刺激 $S$ 在时间 $t$ 处的非线性变换,参数为 $\theta$,而 $\beta \in \mathbb{R}^{F \times C}$ 是将 $F$ 个特征线性投影到脑响应的 $C$ 个通道的投影矩阵。响应通道在 fMRI 中是体素,在 ECoG 中是电极。在可能的情况下,编码模型使用有限冲激响应(FIR)结构来捕捉响应的时序特性。例如,fMRI 响应源于血氧水平依赖(BOLD)信号,该信号在神经活动脉冲后,经 3–4 秒升至峰值,再经过 4–6 秒回落至基线 [Naselaris 等人,2011](https://arxiv.org/html/2605.19224#bib.bib30)。为捕捉这一行为,我们的 fMRI 编码模型使用来自多个时间点($t-4, t-3, t-2, t-1$)的拼接刺激特征来预测时间 $t$ 处的响应。对于具有 $d$ 个延迟的 FIR 模型,特征空间扩展为 $d \cdot F$ 维。在 ECoG 中,响应也因上游神经处理而延迟,通常在刺激瞬变后 200–800 ms [Hullett 等人,2016](https://arxiv.org/html/2605.19224#bib.bib12);[Hamilton 等人,2018](https://arxiv.org/html/2605.19224#bib.bib8)。由于 ECoG 数据的采样率也高得多,捕捉这种时间响应可能需要 $d=20$ 或更多。这在特征空间较大时变得计算上难以处理。为解决此问题,我们遵循早期研究 [Goldstein 等人,2025](https://arxiv.org/html/2605.19224#bib.bib7);[Zada 等人,2025](https://arxiv.org/html/2605.19224#bib.bib41),拟合仅使用单个延迟超参数 $\tau$ 的 ECoG 编码模型,得到 $\hat{R}_t = f(S_{t-\tau}; \theta) \beta$。 这里,我们使用 WavLM [Chen 等人,2021](https://arxiv.org/html/2605.19224#bib.bib4)(一个作用于刺激波形的神经网络)对非线性刺激变换 $f$ 进行参数化。先前研究表明第 9 层在 fMRI 中具有最高的编码性能 [Antonello 等人,2023](https://arxiv.org/html/2605.19224#bib.bib1),因此我们仅从该层提取特征。遵循先前工作,我们通过滑动一个 4 秒窗口在波形上,将窗口内的刺激馈入模型,并保存该层最终 token 的隐藏状态。 对于 fMRI 建模,我们以 0.25 秒的步长提取特征,结果降采样至 0.5 Hz,即 fMRI 响应的采样率。对于 ECoG 建模,我们以 0.05 秒的步长提取特征,得到 20 Hz 的特征,这是我们对 ECoG 响应使用的采样率。 ### 2.3 音频模型的 fMRI 调谐 为了在语音表示中引入类脑偏差,我们在一个称为“fMRI 调谐”的过程中,微调底层的 WavLM 模型以预测 fMRI 响应。我们采用 Vattikonda 等人(2025)[Vattikonda 等人,2025](https://arxiv.org/html/2605.19224#bib.bib40) 的程序,从 WavLM Base+ 检查点开始,微调独立的 WavLM 模型以预测 fMRI 数据集中三个被试的 fMRI 响应。为降低过拟合可能性,我们在每个 Transformer 层的 $W^Q, W^K, Q^V$ 矩阵上使用秩 4 低秩适配(LoRA [Hu 等人,2021](https://arxiv.org/html/2605.19224#bib.bib11)),并将从 WavLM 到 fMRI 体素的最终线性投影约束为秩 100。我们使用 Adam 优化器 [Kingma & Ba,2017](https://arxiv.org/html/2605.19224#bib.bib16),学习率为 $5 \times 10^{-4}$,以优化 LoRA 矩阵和线性投影,最小化空间相关性损失。 我们使用两个故事作为验证集(“fromboyhoodtofatherhood” 和 “onapproachtopluto”),并与预训练模型一样,在一个测试故事(“wheretheressmoke”)上评估编码性能。我们使用与 2.2 节所述相同的特征提取参数,以 10 个 TR 的批量大小对每个模型微调 30 个 epoch。为选择最佳 epoch,我们在验证集上评估编码性能。使用预训练模型的岭参数,我们拟合每个 epoch 特征的岭回归编码模型,并选择具有最佳验证编码性能的 epoch。对于该 epoch,我们重新运行交叉验证以选择最佳岭参数,并在未见过的测试故事上评估其编码性能。 在一个 48GB NVIDIA RTX A6000 上微调一个模型需要 30 小时。 ### 2.4 ECoG 数据与评估 我们使用“Podcast”数据集 [Zada 等人,2025](https://arxiv.org/html/2605.19224#bib.bib41) 来评估我们的 fMRI 调谐模型对颅内数据的泛化能力。在该数据集中,九名患者聆听一个 30 分钟的播客,同时使用皮层脑电图(ECoG)记录脑电活动。该数据集包含所有患者共 1,268 个电极,这些患者与 fMRI 数据集中的参与者不同。 按照 ECoG 惯例,我们使用每个 ECoG 电极中的高伽玛功率(由 Zada 等人(2025)提供)作为目标响应 [Mukamel 等人,2005](https://arxiv.org/html/2605.19224#bib.bib29);[Manning 等人,2009](https://arxiv.org/html/2605.19224#bib.bib22)。高伽玛频带功率是通过对经过 70–200 Hz 带通滤波的 ECoG 信号进行希尔伯特变换解析幅度计算得出。高伽玛功率被认为代表了电极附近区域同步活跃神经元的汇集活动。我们进一步将高伽玛信号降采样至 20 Hz 以减少计算负担。 如前所述,ECoG 的高时间分辨率和语音表示的高维性使得拟合 FIR 编码权重在计算上困难。相反,我们将刺激相对于响应偏移不同的量,并使用岭回归为每个延迟构建单独的线性模型。在 -2 到 +2 秒之间均匀分布 81 个延迟。
相似文章
Brain Score 追踪语言的共享属性:来自多种自然语言和结构序列的证据
本文研究了 Brain Score(一个将语言模型表征与人类阅读时 fMRI 激活进行比较的指标)是否真正捕捉到类似人类的语言处理,或仅反映结构相似性。研究人员在多种自然语言和非语言结构数据(基因组、Python、嵌套括号)上训练语言模型,发现在不同语言和非语言序列上训练的模型达到相似的 Brain Score 性能,这表明该指标可能不足以区分人类特有的处理方式。
元学习上下文学习实现无需训练的跨被试脑解码
# 论文页面 - 元学习上下文学习实现无需训练的跨被试脑解码 来源:[https://huggingface.co/papers/2604.08537](https://huggingface.co/papers/2604.08537) 作者:,,,,,,,,,,,,, ## 摘要 一种元优化方法通过少量图像-脑示例快速推断个体独特神经编码模式,无需跨被试及扫描仪微调,即可实现可泛化的语义视觉解码。[视觉解码](https://huggingface.co/papers?q
用于fMRI编码和解码任务的非局部算子学习
研究基于神经积分算子的fMRI编码和解码任务模型,重点关注非局部时空上下文的作用,并表明更大的时间窗口可提升跨数据集的性能。
FM-fMRI:基于事件条件流匹配的静息态到任务态fMRI时间序列合成
提出FM-fMRI,一种事件条件流匹配模型,能够从静息态fMRI合成任务fMRI时间序列,在Human Connectome Project和内部自闭症队列上实现了优于基线的频谱和连接一致性,并改进了下游自闭症分类性能。
跨语言模型架构的神经激活模式:认知任务性能的综合分析
本文分析了六种LLM架构在认知任务上的神经激活模式,揭示了编码器和解码器模型在注意力熵和稀疏性上的差异。