自然理解过程中语言模型的异质性神经预测性

arXiv cs.CL 论文

摘要

本文研究了在自然语言理解过程中,语言模型表示如何预测MEG、ECoG等记录中的神经活动。研究结果表明,语言模型特征可作为有用的神经预测因子,但需谨慎避免将预测成功过度解读为共享神经组织的证据。

arXiv:2606.26880v1 Announce Type: new Abstract: 语言模型表示为自然语言刺激提供了结构化、高维度的注释,并可在理解过程中作为信息丰富的神经预测因子。我们利用八个冻结语言模型、阻塞编码模型以及匹配的时间、干扰和表示容量控制,分析了来自Brain Treebank、MEG-MASC和Podcast ECoG的锁定衍生数据。在源级别摘要中,保留样本的正向预测和相对于低级基线的增益广泛存在。在Brain Treebank和Podcast ECoG中,432个可评估行中有67个符合受控预测唯一标准,且模型侧特征消融改变了大多数可评估源行的预测分数。脑源性、时间相关的、声学的和植入信号的对照证实了分析流程的组件级敏感性。这些发现表明,语言模型衍生的量可以注释自然语音和文本理解过程中的神经活动。参与者级别的匹配对照优势是局部而非均匀的,反应曲线和特征特异性对比限制了表征或计算解释,而完全共索引的综合解释需要未来联合索引的覆盖。综合来看,这些分析将语言模型特征识别为有用的神经预测因子,并将预测有用性与关于共享神经组织或语言处理计算的主张区分开来。
查看原文
查看缓存全文

缓存时间: 2026/06/26 05:20

# 自然语言理解过程中来自语言模型的异质性神经预测性  
来源: https://arxiv.org/html/2606.26880  

肖佳  
香港中文大学(深圳)人工智能学院  
xiaojia@link\.cuhk\.edu\.cn  

(2026年6月25日)  

###### 摘要  

语言模型表示为自然语言刺激提供了结构化的高维标注,并能在理解过程中作为有信息的神经预测器。我们分析了来自 Brain Treebank、MEG-MASC 和 Podcast ECoG 的锁定衍生数据,使用了八个冻结语言模型、分块编码模型以及匹配的时间、干扰和表征容量控制。留出预测的正向性以及相对于低级基线的增益在源层面汇总中广泛存在。在 Brain Treebank 和 Podcast ECoG 中,432 个可评估行中有 67 行满足受控的仅预测性标准,而模型侧特征消融改变了大多数可评估源行的预测分数。源自大脑的时间相关、声学和植入信号控制确认了分析流程的成分级敏感性。这些发现表明,语言模型衍生的量值能够标注自然语言和文本理解过程中的神经活动。被试层面的匹配控制优势是局部的而非均匀的,响应轮廓和特征特异性对比限制了表征性或计算性解释,而完整的共索引整合解释需要未来联合索引的覆盖。综上,分析将语言模型特征识别为有用的神经预测器,并将预测的有用性与关于共享神经组织或语言处理计算的论断区分开来。  

关键词:自然语言理解、语言模型、认知计算神经科学、神经编码、正向控制、证据校准  

## 1 引言  

语言模型表示已成为自然语言理解的有效量化探针。上下文嵌入、惊奇度估计和特定层特征能够预测以 fMRI、MEG、EEG 和颅内电生理技术测量的神经响应,为将不断展开的语言语境与神经活动联系起来提供了一种可操作的方法[13 (https://arxiv.org/html/2606.26880#bib.bib26),23 (https://arxiv.org/html/2606.26880#bib.bib48),3 (https://arxiv.org/html/2606.26880#bib.bib11),7 (https://arxiv.org/html/2606.26880#bib.bib19),27 (https://arxiv.org/html/2606.26880#bib.bib50),28 (https://arxiv.org/html/2606.26880#bib.bib51),22 (https://arxiv.org/html/2606.26880#bib.bib45),34 (https://arxiv.org/html/2606.26880#bib.bib55),12 (https://arxiv.org/html/2606.26880#bib.bib27),14 (https://arxiv.org/html/2606.26880#bib.bib29)]。这种预测成功具有科学价值,因为语言模型特征提供了刺激的结构化高维表示,能够解释神经响应的变异。接下来的问题是,这种预测性支持什么样的神经和认知信息。正向神经预测可能支持多个层次的推理。一个特征能够预测留出的神经响应,可能是因为它追踪了与测量相关的刺激属性。额外的证据可以表明,训练得到的表示是否超过匹配的时间、干扰和容量控制,是否在采样的神经单元间复制了组织模式,或者是否依赖于某个候选语言相关量值。本研究将这些结果视为可分离的经验论断。  

自然主义刺激使得这种分离变得重要。词起始点、词速率、声学包络、句子位置、语篇进程、词频、词预测性和局部转移统计量之间存在相互关联。神经测量也包含时间自相关性,而现代语言模型特征具有高维性、按层索引并依赖于上下文长度[32 (https://arxiv.org/html/2606.26880#bib.bib54),4 (https://arxiv.org/html/2606.26880#bib.bib13),2 (https://arxiv.org/html/2606.26880#bib.bib9),36 (https://arxiv.org/html/2606.26880#bib.bib46),37 (https://arxiv.org/html/2606.26880#bib.bib47)]。因此,正向神经预测可能将语言相关信息与时间、词汇、声学和表征容量贡献结合在一起。  

近期语言神经科学的工作推动着计算度量与认知解释之间更明确的联系。理论结论依赖于连接构念、任务、测量、分析和辅助假设的链条[29 (https://arxiv.org/html/2606.26880#bib.bib8)]。句法–语义、惊奇度和叙事理解研究显示了将计算度量与特定神经响应模式和解释目标联系起来的重要性[24 (https://arxiv.org/html/2606.26880#bib.bib30),35 (https://arxiv.org/html/2606.26880#bib.bib32),26 (https://arxiv.org/html/2606.26880#bib.bib31)]。Hadidi 及其同事进一步表明,打乱的训练和测试划分、激活提取选择、位置信号和词速率控制可以强烈影响大脑–语言模型预测性[9 (https://arxiv.org/html/2606.26880#bib.bib2)]。这些结果引出了一个更窄的问题:观察到的信号中有多少支持预测的有用性、模型特定优势、共享神经组织或候选计算解释。  

本文在三个自然语言数据集上刻画了来自语言模型特征的异质性神经预测性。我们量化了正向神经预测、相对于干扰基线的增益、受控的仅预测性行、被试层面的一致性以及对模型侧消融的敏感性。然后,我们将这些输出与匹配控制、响应轮廓检验、特征特异性诊断和信度限定的汇总进行比较,以确定哪些解释得到了现有衍生数据的支持。  

## 2 材料与方法  

### 2.1 被试与数据来源  

本二次分析使用了先前发布来源的预处理和衍生数据;原始神经记录由原始数据提供者管理,未重新分发。三个数据集被视作主要自然语言来源,因为可获得的衍生数据包含了神经时间序列或神经目标、词级事件网格、语言模型特征、干扰变量、匹配控制以及信度或覆盖范围元数据[33 (https://arxiv.org/html/2606.26880#bib.bib10),39 (https://arxiv.org/html/2606.26880#bib.bib57),8 (https://arxiv.org/html/2606.26880#bib.bib21)]。Brain Treebank 贡献了 10 名被试、26 个被试–运行单元和 248 个模态特定脑单元。Podcast ECoG 贡献了 9 名被试、9 个被试–运行单元和 235 个 ECoG 衍生脑单元。MEG-MASC 贡献了 11 名被试、84 个被试–运行单元和 257 个 MEG 衍生目标单元。这些脑单元根据源数据集不同,可以是电极、传感器、源目标、时间窗口或衍生目标轮廓。它们与独立被试不同。样本量由二次数据设计以及公开释放或本地可访问的衍生数据子集决定,该子集能在神经目标、词事件网格、模型特征、控制和信度元数据之间进行匹配。未招募新被试,被试扩展超出了现有衍生数据的范围。因此,每个对比保留的被试和被试–运行覆盖范围限定了推理边界。  

在完成完整的模型–控制匹配后,匹配的被试–运行预测推理保留了来自 10 名被试的 26 个 Brain Treebank 被试–运行单元、来自 11 名被试的 44 个 MEG-MASC 被试–运行单元以及来自 8 名被试的 8 个 Podcast ECoG 被试–运行单元。当一名被试贡献了多个运行时,在被试–聚类自助法之前,先在被试层面取运行的平均值。这些覆盖计数界定了预测推理边界;电极、传感器、层和表格行定义了嵌套的分析维度。源数据集包含的数据超出了那些具有完整局部特征匹配的子集。  

Brain Treebank 记录了神经外科被试在观看自然电影刺激时的颅内电生理活动,并附有手动校正的转录、词起始时间、词性标签和与音轨对齐的依存句法分析[33 (https://arxiv.org/html/2606.26880#bib.bib10)]。Podcast ECoG 记录被试在收听自然口语播客时的颅内响应,源发布中提供了高伽马预处理衍生数据和语言特征注释[39 (https://arxiv.org/html/2606.26880#bib.bib57)]。MEG-MASC 记录英语被试在重复 MEG 会话中收听自然主义 MASC 故事时的反应,其中还包括词列表和阅读理解问题材料[8 (https://arxiv.org/html/2606.26880#bib.bib21)]。本手稿分析了在衍生数据中能够匹配的被试–运行、事件网格、表示和控制行。源库保留了 Narratives 和 LPP 多语言作为次要或探索性来源[18 (https://arxiv.org/html/2606.26880#bib.bib42),16 (https://arxiv.org/html/2606.26880#bib.bib39)]。Learning Brain 被视作仅验证,Natural Stories 被视作仅刺激–语言模型或诊断性来源,因为可获得的衍生数据缺乏当前对比所需的神经侧覆盖[6 (https://arxiv.org/html/2606.26880#bib.bib18),20 (https://arxiv.org/html/2606.26880#bib.bib37)]。被试人口统计学、原始排除标准、伦理批准和知情同意程序由源出版物和存储库管理。本手稿报告了本分析可用的衍生单元,并保留了去标识化和原始数据访问边界。  

### 2.2 自然语言刺激与神经测量  

三个主要数据集以不同测量模态采样自然语言理解。Brain Treebank 提供观看自然视听或语言刺激时的颅内记录。Podcast ECoG 提供收听播客时的颅内记录。MEG-MASC 提供对自然语音的 MEG 响应。本地分析继承了每个源的预处理、伪迹剔除和目标定义,均来自发布或衍生的人工制品。使用词起始时间和事件网格将语言模型特征和干扰变量与神经目标对齐。主要推理单元是被试或被试–运行(当匹配数据允许该聚合时)。电极、传感器、目标窗口、层、模型、度量和候选量值被视为嵌套或交叉的分析维度。行计数描述了模型–数据集–层–度量组合的覆盖范围;独立的预测证据来自被试感知的汇总。根据预测输出生成了模态、区域和时间窗口的汇总。在匹配的衍生数据中,预测行保留了模态标签和广义目标覆盖标签。因此,模态和窗口汇总可用,而区域内部比较需要更精细的保留目标层。补充表 30 列出了特定于数据集的神经目标类型、脑单元计数描述符、时间窗口、选择规则、最终单元以及在面对手稿的对比之前取平均的内容。广义目标标签表示衍生数据中保留的目标覆盖范围。预测区间报告自 10 名 Brain Treebank 被试(26 个被试–运行单元)、11 名 MEG-MASC 被试(44 个被试–运行单元)和 8 名 Podcast ECoG 被试(8 个被试–运行单元)。响应轮廓和特征消融汇总保留了其对比特定的目标轮廓或诊断范围,并作为有界汇总报告,不进行正式的被试层面等效检验。  

### 2.3 语言模型表示与候选量值  

分析使用了分析包中的固定语言模型表示文件。分析的模型库限定为八个验证好的特征集:DistilGPT-2、GPT-2、GPT-2 Medium、Pythia-160M、Pythia-410M、Qwen2.5-0.5B-Instruct、Qwen2.5-1.5B-Instruct 和 Qwen3-1.7B。更大规模的本地索引检查点(包括 Qwen2.5-7B-Instruct 和 Qwen3-4B-Instruct-2507)没有匹配的分析行,因此不在分析模型集内。  

候选语言相关量值从固定表示文件和词事件表中操作化得到。词惊奇度以自然对数单位计算,为每个词子词惊奇度之和:−∑i∈wlog⁡p(ti∣t<i)。每个词的每个子词在上下文中条件概率来自模型令牌后验分布。句子和语境惊奇度是每个句子或重叠上下文窗口中词惊奇度的总和。词熵与词惊奇度同时计算,来自词每个令牌位置的令牌后验分布熵。重复模式(令牌或子词序列在特定跨度内的重复)以及词汇和句法特征(词性标签、频率和对数比例)从事件表或外部词汇数据库中提取。语义相似度或向量长度通过配置的语言模型表示(原始层嵌入)的余弦相似度或欧几里得范数计算。补充表 8 列出了用到的每个候选量值以及它们在分析中如何从原始特征中分离出来。分析并未在任何候选量值上训练语言模型参数;这些量值来自冻结的模型表示。每个候选量值都有一个匹配的替代量值,用于控制时序和声学协变量——参见补充方法表。分析设计的关键方面是,对于每个候选量值,都有一个匹配的替代,它通过序列置换或时间级残差化保持分布属性,但破坏刺激–语言链接。  

### 2.4 编码模型与预测评估  

主要分析使用源解析包中预计算或脚本化的留出编码分数,适用于每个数据集–模型–层–度量–目标组合。编码模型是岭回归模型(岭参数设置为固定值 r ≥ 0 或通过嵌套交叉验证选择),应用于(通常是每个目标单位、每个窗口的)聚合特征向量。对于纵向(M/EEG 样)目标,通常包括时间滞后嵌入。对于带有固定滞后结构的编码模型,使用时间偏移的模型特征;对于具有灵活窗口选择的模型,在编码之前应用每个目标窗口的聚合。源解析包在处理中可能应用了零填充或边界处理。本地分析使用了每个可用数据集–模型–层–度量系统的留出(测试集)预测分数。预测分数为皮尔逊相关系数 r(在留出数据上,真实神经目标与预测目标之间)。  

本地分析将预测分数收集为四维表格:数据集 × 模型 × 层 × 度量。在每个度量和数据集内,预测分数进一步按神经网络目标嵌套。我们使用了预测列中以 `score` 为键的值。所有分数都来自冻结的(未微调)模型表示。用于比较的基线预测分数在分析包中通过匹配的时间–干扰变量或低级别替代模型计算得到,并在预测列中以 `score_baseline` 为键。预测分数的正向性意味着 r > 0。相对于基线的增益意味着 r − r_baseline > 0,建模为预测分数减去基线分数。对于包含多个滞后的预测器,提供的是最大或选定的分数。当可用时,还提取了留出随机基线分数(真实目标与排列特征之间的中位 r)以支持自包含的刺激–语言控制。  

### 2.5 预测有效性与增益  

我们将预测有效性和相对于基线的增益定义为不同的评估标准。正向留出预测(r > 0)提供了神经预测的最低证据。较大的正向分数可能表示特征集利用了刺激信息。相对于低级别基线的增益(r − r_baseline > 0)进一步分离了时间、词汇或声学协变量。对于基线和刺激–语言匹配的随机基线,当表格包含这些列时,也记录了正向增量。在源层面对预测刺激–语言分数以及相对于每个可用基线或刺激控制的正向增量进行了汇总。预测的有效性不要求每个单独的目标或窗口都满足标准;源层面的报告在数据集–模型–层–度量单元内显示正向预测的普遍性。  

受控的仅预测性标准要求刺激–语言预测分数高于可用的每个基线,表示在多个受控维度上持续存在。源表贡献了 432 个可评估行(三个数据集中,具有度量、层、模型的组合,且具有用于对照的预测分数和基线分数)。辅助摘要包括了数据集中具有可匹配基线信息的行,这些行在可用的刺激控制中也保持正向。未报告模型或度量的加权平均预测分数;分数与目标单位相关。  

### 2.6 响应轮廓与信度限定分析  

响应轮廓分析将神经模式相似度投影与预测性评估相结合。它评估来自已训练编码器的预测特征与候选量值模式匹配的度量。数据帧贡献了配对模式表,其中神经模式向量被计算为投影到候选语言相关量值上的编码器预测。针对每个数据集–候选量值–模型–层的组合,定义了三种类型的模式向量:真实神经模式(来自真实神经目标)、预测语言模型模式(来自预测),以及来自控制表示(匹配的替代)的替代模式。轮廓相似度是这些模式向量之间的皮尔逊 r 值,计算时采用目标间距离矩阵的逐元素相似度或向量余弦。响应轮廓标准要求整体轮廓相似度为正(Δprofile - 对于真实 vs 控制或真实 vs 替代)。手稿面对的汇总行将这些轮廓增量平均到相应数据集–模型–层–候选量值对比中的采样单元和被试–运行行上;孤立的正面目标行在其局部目标范围内是描述性的。有效的大脑天花板是单独的信度限定响应轮廓幅度标准的要求。大脑可靠性天花板由大脑衍生的轮廓向量计算得到。分半信度使用脑模式表中存储的分半大脑天花板值。当可用时,运行间、被试间和会话间信度是共享相同数据集、区域组、轮廓相似度度量和单位键但在命名分组变量上不同的脑模式向量之间的成对皮尔逊相似度。方法特定信度是对可用配对值的平均值,并带有 500 个样本的百分位自助法区间。仅当信度有限且至少为 0.10 时,天花板才有效。天花板归一化的响应轮廓摘要使用 f_ceiling = s_real / r_brain 和 Δf_ceiling = Δprofile / r_brain。负值或缺失的信度被保留为无效天花板。信度限定的响应轮廓标准还要求 f_ceiling ≥ 0.50、正向轮廓–控制增量以及通过的响应轮廓单元。  

预测不确定性摘要使用被试均值的 1000 次自助法样本。当一名被试贡献了多个运行时,首先在被试内取平均,然后自助法在被试层面重新采样被试。当只保留一名被试时,被试–聚类推断被标记为不可用。特征消融双重分离检验在适用时使用 1000 次自助法和 1000 次符号/置换样本。错误发现率值使用 Benjamini–Hochberg 方法在校正配置的数据集 × 候选量值 × 模型 × 区域家族后计算,并以 q < 0.05 解释。  

### 2.7 模型侧特征消融分析  

特征消融分析在特征置零、仅训练残差化、仅训练投影去除、层消融、上下文重置或逆向上下文变换后重新计算留出分数。这些操作在解释上有所不同。特征置零直接改变可用的特征维度。残差化和投影去除去除与候选量值相关的方差,同时保留仅训练拟合。层消融测试对特定层表示的依赖性。上下文重置和逆向上下文测试对模型上下文历史的敏感性。因此,消融结果按操作进行解释,并且

相似文章

Brain Score 追踪语言的共享属性:来自多种自然语言和结构序列的证据

arXiv cs.CL

本文研究了 Brain Score(一个将语言模型表征与人类阅读时 fMRI 激活进行比较的指标)是否真正捕捉到类似人类的语言处理,或仅反映结构相似性。研究人员在多种自然语言和非语言结构数据(基因组、Python、嵌套括号)上训练语言模型,发现在不同语言和非语言序列上训练的模型达到相似的 Brain Score 性能,这表明该指标可能不足以区分人类特有的处理方式。

利用语言模型的稀疏特征解读大脑对语言的反应

arXiv cs.CL

本文介绍了Augmented Sparse Encoding Models,利用语言模型的稀疏特征解读大脑对语言的反应,并在高场7T fMRI数据上进行了验证。该模型恢复了已知的神经调谐特性,并发现了一个新的体素群体,该群体对与人相关的内容具有调谐特性。

语言模型学习什么以及何时学习?隐性课程假设

Hugging Face Daily Papers

本文提出隐性课程假设,证明语言模型预训练遵循一个结构化的、组合性的课程,其中能力跨架构一致涌现,并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证,发现四个模型族中涌现顺序高度一致(ρ=0.81)。