Brain Score 追踪语言的共享属性：来自多种自然语言和结构序列的证据

arXiv cs.CL 2026/04/20 04:00 论文

摘要

本文研究了 Brain Score（一个将语言模型表征与人类阅读时 fMRI 激活进行比较的指标）是否真正捕捉到类似人类的语言处理，或仅反映结构相似性。研究人员在多种自然语言和非语言结构数据（基因组、Python、嵌套括号）上训练语言模型，发现在不同语言和非语言序列上训练的模型达到相似的 Brain Score 性能，这表明该指标可能不足以区分人类特有的处理方式。

arXiv:2604.15503v1 公告类型：新发布摘要：使用神经网络的语言模型（LM）最近的突破引发了一个问题：这些模型的处理与人类语言处理有多相似？使用名为 Brain Score（BS）的框架的结果——从 LM 激活预测阅读时的 fMRI 激活——被用来论证高度相似性。为了理解这种相似性，我们通过在各种类型的输入数据上训练 LM 并在 BS 上对其进行评估来进行实验。我们发现在来自许多不同语言家族的各种自然语言上训练的模型具有非常相似的 BS 性能。在其他结构化数据上训练的 LM——人类基因组、Python 和纯层次结构（嵌套括号）——表现也相当不错，在某些情况下接近自然语言。这些发现表明 BS 可以突出语言模型从自然语言中提取常见结构的能力，但该指标可能不够敏感，无法仅从高 BS 分数推断出类似人类的处理方式。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:27

# 脑分数追踪语言的共享属性：来自多种自然语言和结构序列的证据
来源：https://arxiv.org/html/2604.15503
Ashvin RanjanShane Steinert-Threlkeld 华盛顿大学 {jingnong, ar31, shanest}@uw.edu

###### 摘要

最近使用神经网络的语言模型（LMs）取得的突破提出了一个问题：这些模型的处理与人类语言处理有多相似？使用称为脑分数（BS）的框架——从LM激活预测阅读时的fMRI激活——的结果被用来论证具有高度相似性。为了理解这种相似性，我们通过在各种输入数据上训练LM并在BS上评估它们来进行实验。我们发现在各种自然语言上训练的模型来自许多不同的语言族，具有非常相似的BS性能。在其他结构化数据上训练的LM——人类基因组、Python和纯层次结构（嵌套括号）——也表现得相当好，在某些情况下接近自然语言。这些发现表明BS可以突出语言模型跨自然语言提取常见结构的能力，但该度量可能不够敏感，以至于我们无法仅从较高的BS分数推断出类人处理。

## 1 介绍

现代语言模型（LMs）已被证明在模仿人类语言使用方面非常有效（Cai et al., 2024；Wilcox et al., 2024）。因此，语言模型是否以与人类相似的方式表现语言是一个有趣的问题。Schrimpf et al.（2021）开发了脑分数（BS）作为量化这种相似性的一个重要方面的度量。特别是，该度量测试语言模型的内部表示能够预测人脑在阅读文本时的功能性磁共振成像（fMRI）反应的程度如何。

在提出该度量时，Schrimpf et al.（2021）还发现模型的下一个词预测能力与其BS性能之间存在强相关性。他们使用这一发现作为证据，即人类语言理解也针对预测性处理进行了优化，这是一个有趣的主张，需要更仔细的测试。

在本文中，我们着手测试这个链接。如果语言模型中的下一个词预测确实反映了人类语言处理，我们期望这种相似性是特定于语言的。也就是说，如果我们处理英语，预测应该基于英语而不是类型学和结构上不同的语言，如印尼语。这种语言特异性应该然后投射到语言模型，以使假设完全成立。换句话说，印尼语言模型不应该在英语刺激的BS评估中表现得与英语语言模型一样好。有关BS背景和我们测试实现灵感的更多细节可以在第2节中找到。

为了测试BS的语言特异性，我们进行了一系列实验——如图1所示——其中我们使用各种自然语言和其他结构化序列（人类基因组、Python代码和嵌套括号）训练一组语言模型。然后，我们使用BS在与上述相同的英语阅读数据上评估这些LM（Pereira et al., 2018；Schrimpf et al., 2021）。为了做到这一点，我们仅轻微适配所有这些模型的嵌入层以获取英语词汇。实验的详细信息在第3节中解释。

我们的结果显示，在各种自然语言上训练的模型在两个评估数据集的BS方面没有统计学上的显著差异。在结构化序列上训练的LM的BS性能明显高于随机基线。编程语言Python的BS仅略低于在自然语言上训练的LM。这些结果以及这些实验的更详细分析可以在第4节中找到。

一方面，我们的发现表明LM能够跨人类语言提取常见结构，这可能是高BS分数的原因。另一方面，自然语言之间的不可区分性以及结构序列的高分数也对语言模型处理与人类语言处理之间假设的相似性提出了疑问，原因是缺乏语言特异性。我们在第5节中讨论我们结果的进一步含义和改进度量的途径。

参见说明图1：训练和评估模型的流程。所有训练都从随机初始化模型开始。这些随机初始化的模型在第一步中通过在各种数据集上进行完整训练而分散。之后，他们经历了在英语上的单独嵌入适配步骤，其中进一步训练嵌入层并冻结模型的其余部分。之后，模型将表示Pereira et al.（2018）使用的英语句子。句子表示将用于预测人类大脑体素对相同句子的反应。

## 2 相关工作

### 2.1 脑分数

Schrimpf et al.（2018）首先提出BS作为视觉对象识别任务中神经网络和人类大脑之间相似性的度量。Schrimpf et al.（2021）随后在几个英语人脑反应数据集上为自然语言实现了BS，通过比较神经网络对自然语言刺激的反应和相同反应的人类脑成像表示。在这里，我们关注源自Pereira et al.（2018）的数据集，与Schrimpf et al.（2021）的后续工作一致。

随后的几项工作试图找出对语言BS有贡献的因素。Pasquiou et al.（2022）使用参与者聆听《小王子》的脑成像数据测试了BS，并得出结论，训练增加了模型在BS中的性能。

Kauf et al.（2024）以各种方式操纵了Pereira et al.（2018）使用的句子作为人类受试者的刺激，然后使用它们从预训练的英语语言模型预测人类脑活动。计算操纵刺激上预训练模型的BS，他们观察到修改语义的操纵对BS的影响明显大于改变句法的操纵。他们随后得出结论，词汇语义信息对BS性能至关重要，而句法结构则不然。

Hosseini et al.（2024）发现在发展现实的数据量上进行训练的模型——特别是100M个令牌——达到的BS几乎与非常大的模型一样高。由于这一发现，我们在所有数据类型的训练程序中使用100M个令牌。

Feghhi et al.（2024）发现了未训练GPT2-XL模型在BS上出现意外好性能的原因可以在很大程度上归因于使用改组的训练-测试分割、句长和句位置。他们还发现训练模型在BS中的性能可以在很大程度上由句长、句位置和静态词嵌入来解释。

### 2.2 替代数据集上的预训练

本文的方法受到了以自然语言替代数据对神经网络进行预训练的先前工作的启发。

Papadimitriou和Jurafsky（2020、2023）在包括简单形式语言、音乐和类型上不同的自然语言的各种数据上进行预训练取得了成功，以降低语言模型的困惑度。我们还将嵌入适配基于Papadimitriou和Jurafsky（2020）在长短期记忆（LSTM）模型上使用的方法。

类似的程序也已成功尝试并被证明对不同的自然语言下游任务有效。Chiang和Lee（2022）在令牌分布和形式语言上测试了样本操纵，在各种英语下游任务中取得了成功。Hu et al.（2025）得出结论，某些形式语言数据比自然语言数据在预训练中更有帮助，可以降低损失并改进语言泛化。Jiang et al.（2026）专注于基于形式语言和简单算法的程序数据，发现将此类数据放在前面可以改进模型在自然语言、代码和非正式数学上的性能。Kim et al.（2024）发现在代码上预训练有助于模型更好地追踪自然语言中的实体。Ri和Tsuruoka（2022）为预训练创建了人工语言，并发现嵌套依赖结构对语言建模和依赖解析有帮助。这些成功使我们合理地期望从在其他非自然语言数据集上的训练可以转移到BS性能。

## 3 方法论

我们的总体方法论——如图1所示——是从头开始在各种不同的数据集上训练语言模型，然后在嵌入适配步骤后在Pereira et al.（2018）的英语阅读数据上评估它们的BS分数。我们在随后的小节中概述了这个流程的每个组件，并详细说明了我们的完整实验设置。代码和数据可在https://github.com/CLMBRs/xlbs上获得。

### 3.1 数据集

我们精选了一组数据集，涵盖与英语（用于计算BS的主体语言）具有不同相似程度的训练情况（Pereira et al., 2018；Schrimpf et al., 2021）。这些数据集可分为三类：自然语言、其他结构化序列和无结构训练。语料库构建的准确详情在第3.3节中提供。

表1：根据Dryer和Haspelmath（2013）对自然语言的分类。我们将Wikipedia上的中文多样性视为普通话，阿拉伯语的多样性为现代标准阿拉伯语。

#### 自然语言

为了确保不同自然语言之间的数据质量和风格相似，我们使用2023年11月的官方Wikipedia转储（Wikimedia Foundation, 2023）。为了平衡类型多样性和数据可用性，我们选择了7种语言，如表1所示。

Pereira et al.（2018）的实验（作为BS评估的基础）包含两部分，实验2和3。实验2仅使用Wikipedia风格的文本作为人类受试者的刺激，而实验3使用Wikipedia风格的文本和第一人称和第三人称叙述作为刺激。为了有一个与刺激实验3更一致的数据集，我们还包括一个单独的数据集，该数据集以3:1的示例数比率组合英文Wikipedia转储和Project Gutenberg数据集的英文子集（Project Gutenberg, n.d.；Faysse, 2023），遵循Hosseini et al.（2024）使用的类似混合。我们将此数据集称为"混合"。

#### 其他结构化序列

我们还选择了不是自然语言的各种结构化序列。这些数据集包括嵌套括号的简单形式语言（Dyck语言）、来自Stack的Python代码（Kocetkov et al., 2022）和人类（Homo sapiens）的参考基因组（美国国家生物技术信息中心, 2022）。

在Dyck语言中，每种类型的括号都为开括号和闭括号分配了唯一令牌。对于每个要生成的令牌，我们设置0.51的概率，其中令牌是闭括号，这意味着令牌将与当前字符串中奇数索引处的最后一个令牌相同，除非该令牌必须是开括号。否则，它将从49,999个唯一令牌中以相等的机会选择一个令牌作为开括号。

我们通过首先使用Python的内置分词器对代码进行分词并为Python中语义上重要的空格（即换行、缩进、反缩进）分配特殊令牌来预处理Python代码。此外，所有注释和字符串都被替换为相应的特殊令牌，以避免自然语言泄漏到数据集中。

对于人类基因组数据，我们消除了数据集中的所有标题，以再次避免自然语言泄漏和无关信息。

#### 无结构训练

为了设置基线，我们包括了打乱的英文Wikipedia数据集。在此数据集中，所有令牌都在整个数据集中打乱。尽管保留了数据集中令牌频率的某些基本统计信息，但自然语言中的上下文依赖性被消除了。最后，我们还测试了初始化后未在任何数据集上训练的模型版本。

### 3.2 脑分数

在概念上，BS比较了刺激在人类大脑和神经网络中的表示之间的相似性。如图1所示，句子在语言模型中被表示并与人类受试者被显示相同句子时的fMRI图像进行比较。特别是：训练一个线性回归模型以从LM激活预测语言网络中的fMRI反应，然后BS是实际和预测fMRI反应之间的皮尔逊相关系数。我们利用来自开源GitHub存储库的该度量的Python实现（Schrimpf et al., 2018, 2020, 2021）。

我们使用Pereira et al.（2018）进行的实验2和3的fMRI数据计算该度量。如第3.1节中所讨论的，两个实验使用不同风格的刺激。根据Schrimpf et al.（2021）提出的方法，在此特定数据集上评估语言模型的BS。语言模型的每一层都被单独处理。模型表示和人类fMRI数据的80%用于

Brain Score 追踪语言的共享属性：来自多种自然语言和结构序列的证据

相似文章

自然理解过程中语言模型的异质性神经预测性

利用语言模型的稀疏特征解读大脑对语言的反应

跨语言模型架构的神经激活模式：认知任务性能的综合分析

大脑-LLM对齐受训练数据影响，而非语言类型学

科学家首次记录双语者大脑中的单个神经元，发现大脑并非通过翻译词汇，而是类似于大语言模型中的向量空间同构来运作

提交意见反馈