跨语言模型架构的神经激活模式:认知任务性能的综合分析

arXiv cs.CL 论文

摘要

本文分析了六种LLM架构在认知任务上的神经激活模式,揭示了编码器和解码器模型在注意力熵和稀疏性上的差异。

arXiv:2605.15436v1 公告类型:新 摘要:本文对六种不同的大语言模型(LLM)架构的神经激活模式进行了全面分析,考察了它们在十二个认知任务类别上的表现。通过系统测量最终激活值、注意力熵和稀疏模式,我们揭示了编码器和解码器架构在处理不同认知任务时的根本差异。我们对144个任务-模型组合的分析表明,数学推理在所有架构中产生的注意力熵最高,而解码器模型的稀疏模式显著高于编码器模型。这些发现为现代语言模型的计算特性及其任务特定的神经行为提供了关键见解,对大数据应用中的模型选择与优化具有重要启示。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:31

# 语言模型架构中的神经激活模式:认知任务表现的综合分析
来源:https://arxiv.org/html/2605.15436
###### 摘要

本文对六种不同的大型语言模型(LLM)架构的神经激活模式进行了全面分析,考察了它们在十二个认知任务类别上的表现。通过对最终激活值、注意力熵和稀疏性模式的系统测量,我们揭示了编码器与解码器架构在处理不同认知任务时的根本差异。我们对144个任务-模型组合的分析表明,数学推理在所有架构中始终产生最高的注意力熵,而解码器模型相比编码器模型表现出显著更高的稀疏性模式。这些发现为现代语言模型的计算特性及其特定任务的神经行为提供了关键见解,对大数据应用中的模型选择和优化具有启示意义。

## I 引言

大语言模型(LLM)已彻底改变了自然语言处理和大数据分析,在各类认知任务中展现出卓越的能力。然而,其内部运行机制仍然认识不足。以往研究主要关注输出质量指标,而对模型在任务执行过程中神经激活模式的关注有限。

理解这些激活模式至关重要,原因如下:(1) 它揭示了模型效率和计算资源分配机制,(2) 它有助于在大数据环境中为特定任务选择更合适的模型,(3) 它为架构优化提供了途径。本研究通过系统分析多个LLM架构和认知任务类别中的神经激活模式,填补了这一空白。

我们的贡献包括:(1) 一个涵盖144个模型-任务组合的神经激活测量综合数据集,(2) 识别出区分认知过程的特定任务激活特征,(3) 比较分析揭示了编码器与解码器架构之间的根本差异,(4) 为计算效率考量提供参考的稀疏性模式洞察。

## II 相关工作

大语言模型中的神经激活分析是一个快速发展的研究领域,处于可解释性、效率与认知建模的交汇点 [37 (https://arxiv.org/html/2605.15436#bib.bib37),10 (https://arxiv.org/html/2605.15436#bib.bib10)]。

### II-A 模型可解释性与注意力分析

Transformer可解释性的最新进展集中于理解注意力机制及其在语言处理中的作用 [26 (https://arxiv.org/html/2605.15436#bib.bib26),25 (https://arxiv.org/html/2605.15436#bib.bib25)]。Kovaleva等人 [27 (https://arxiv.org/html/2605.15436#bib.bib27)]揭示了BERT的注意力模式既包含语言学上有意义的行为,也包含看似随机的行为。Voita等人 [28 (https://arxiv.org/html/2605.15436#bib.bib28)]证明注意力头在语言功能上各有专长,而Michel等人 [31 (https://arxiv.org/html/2605.15436#bib.bib31)]表明许多注意力头可以在不显著损失性能的情况下被裁剪。

Clark等人 [26 (https://arxiv.org/html/2605.15436#bib.bib26)]开创了系统性注意力分析,揭示了不同注意力头捕捉不同的句法和语义关系。这项工作为将注意力熵分析作为计算复杂度的度量奠定了基础 [38 (https://arxiv.org/html/2605.15436#bib.bib38)]。

### II-B 神经效率与稀疏性分析

随着模型规模的增长,大语言模型的计算效率变得日益关键 [39 (https://arxiv.org/html/2605.15436#bib.bib39)]。Hoefler等人 [29 (https://arxiv.org/html/2605.15436#bib.bib29)]对深度学习中的稀疏性进行了全面分析,为我们的稀疏性测量奠定了理论基础。

近期关于模型压缩和效率的工作包括基于幅度的剪枝 [30 (https://arxiv.org/html/2605.15436#bib.bib30)]、结构化稀疏性 [40 (https://arxiv.org/html/2605.15436#bib.bib40)]以及激活稀疏性分析 [41 (https://arxiv.org/html/2605.15436#bib.bib41)]。Dettmers等人 [42 (https://arxiv.org/html/2605.15436#bib.bib42)]证明8位量化可以在降低计算需求的同时保持模型性能。

### II-C 认知任务评估

跨多种认知任务对语言模型进行综合评估已成为一个关键研究方向 [43 (https://arxiv.org/html/2605.15436#bib.bib43)]。Hendrycks等人 [15 (https://arxiv.org/html/2605.15436#bib.bib15)]引入了用于数学推理评估的MATH数据集,而Srivastava等人 [44 (https://arxiv.org/html/2605.15436#bib.bib44)]提出了用于广泛认知评估的BIG-bench。

近期关于任务特定模型行为的工作包括数学推理分析 [45 (https://arxiv.org/html/2605.15436#bib.bib45)]、代码生成评估 [17 (https://arxiv.org/html/2605.15436#bib.bib17)]以及常识推理评估 [24 (https://arxiv.org/html/2605.15436#bib.bib24)]。Talbot和Bethard [18 (https://arxiv.org/html/2605.15436#bib.bib18)]探索了语言模型中的哲学推理,为我们理解抽象认知能力做出了贡献。

### II-D 架构对比研究

Transformer架构的比较分析揭示了处理策略上的根本差异 [9 (https://arxiv.org/html/2605.15436#bib.bib9)]。Tay等人 [46 (https://arxiv.org/html/2605.15436#bib.bib46)]提供了高效Transformer变体的全面分析,而Narang和Chowdhery [47 (https://arxiv.org/html/2605.15436#bib.bib47)]探索了缩放法则和架构选择。

近期的架构创新包括检索增强生成 [48 (https://arxiv.org/html/2605.15436#bib.bib48)]、混合专家模型 [49 (https://arxiv.org/html/2605.15436#bib.bib49)]以及面向特定领域的专用架构 [50 (https://arxiv.org/html/2605.15436#bib.bib50)]。我们的工作通过提供跨架构和任务的系统性神经激活分析,为该文献做出了贡献。

## III 方法论

### III-A 实验框架

我们的分析框架(实现为LLM Brain Activity Analyzer)系统地评估了多种模型架构和认知任务中的神经激活模式。该框架支持全面的模型系列,包括BERT变体、GPT系列、LLaMA模型、Mistral架构以及近期2024年的发布版本 [1 (https://arxiv.org/html/2605.15436#bib.bib1),2 (https://arxiv.org/html/2605.15436#bib.bib2)]。

### III-B 模型选择与架构覆盖

我们从涵盖8个不同系列和50+可用模型的全面模型分类中选择了六种代表性LLM架构:

- •BERT-Base(1.095亿参数):纯编码器双向架构 [3 (https://arxiv.org/html/2605.15436#bib.bib3)]
- •GPT2-117M(1.244亿参数):自回归解码器架构 [4 (https://arxiv.org/html/2605.15436#bib.bib4)]
- •Qwen-1.5-0.5B(4.64亿参数):现代多语言解码器,具有增强的推理能力 [5 (https://arxiv.org/html/2605.15436#bib.bib5)]
- •Phi-1(14亿参数):微软的效率优化解码器 [6 (https://arxiv.org/html/2605.15436#bib.bib6)]
- •BLOOM-560M(5.592亿参数):多语言自回归模型 [7 (https://arxiv.org/html/2605.15436#bib.bib7)]
- •StableLM-3B(36亿参数):Stability AI的大规模解码器架构 [8 (https://arxiv.org/html/2605.15436#bib.bib8)]

这一选择涵盖了多样化的架构范式、参数规模(1.095亿至36亿)和训练方法,为现代LLM领域提供了全面的覆盖 [9 (https://arxiv.org/html/2605.15436#bib.bib9),10 (https://arxiv.org/html/2605.15436#bib.bib10)]。

### III-C 认知任务分类

我们设计了一个全面的认知任务分类体系,涵盖十二个不同的推理领域,每个领域均通过认知科学文献验证 [11 (https://arxiv.org/html/2605.15436#bib.bib11),12 (https://arxiv.org/html/2605.15436#bib.bib12)]:

1.  1.事实性问题:百科知识的检索 [13 (https://arxiv.org/html/2605.15436#bib.bib13)]
2.  2.创意写作:需要想象力的开放式文本生成 [14 (https://arxiv.org/html/2605.15436#bib.bib14)]
3.  3.数学推理:多步定量问题解决 [15 (https://arxiv.org/html/2605.15436#bib.bib15)]
4.  4.情感内容:情感分析与情感理解 [16 (https://arxiv.org/html/2605.15436#bib.bib16)]
5.  5.技术代码:编程与软件工程任务 [17 (https://arxiv.org/html/2605.15436#bib.bib17)]
6.  6.哲学问题:关于存在与伦理的抽象推理 [18 (https://arxiv.org/html/2605.15436#bib.bib18)]
7.  7.对话聊天:自然对话与社交互动 [19 (https://arxiv.org/html/2605.15436#bib.bib19)]
8.  8.逻辑谜题:演绎与归纳推理挑战 [20 (https://arxiv.org/html/2605.15436#bib.bib20)]
9.  9.科学解释:特定领域知识的应用 [21 (https://arxiv.org/html/2605.15436#bib.bib21)]
10.  10.语言任务:语言分析与翻译 [22 (https://arxiv.org/html/2605.15436#bib.bib22)]
11.  11.指令遵循:任务理解与执行 [23 (https://arxiv.org/html/2605.15436#bib.bib23)]
12.  12.常识推理:日常知识的应用 [24 (https://arxiv.org/html/2605.15436#bib.bib24)]

每个类别包含精心设计的提示对,旨在引发类别特定的认知过程,同时保持一致的复杂度水平。表I (https://arxiv.org/html/2605.15436#S3.T1)展示了我们评估数据集中的代表性示例。

表I: 按认知类别分类的样本测试输入
### III-D 神经激活度量

我们基于Transformer可解释性的近期进展 [25 (https://arxiv.org/html/2605.15436#bib.bib25),26 (https://arxiv.org/html/2605.15436#bib.bib26),27 (https://arxiv.org/html/2605.15436#bib.bib27)],开发了三种互补的度量指标,以捕捉神经计算的不同方面:

- •最终激活值(Af):最终隐藏层的平均激活幅度,计算如下:Af=1N∑i=1NhL(i) 其中 hL(i) 表示最终层激活的第 i 个元素,N 为隐藏维度。
- •注意力熵(Hatt):跨所有注意力头和层的注意力权重分布的香农熵 [26 (https://arxiv.org/html/2605.15436#bib.bib26),28 (https://arxiv.org/html/2605.15436#bib.bib28)]:Hatt=-1LH∑l=1L∑h=1H∑i,jAl,h(i,j) log Al,h(i,j) 其中 Al,h(i,j) 为第 l 层第 h 个头中从位置 i 到 j 的注意力权重。
- •最大稀疏性(Smax):所有网络层中的峰值稀疏水平,用于衡量计算效率 [29 (https://arxiv.org/html/2605.15436#bib.bib29),30 (https://arxiv.org/html/2605.15436#bib.bib30)]:Smax = max_{l∈{1,...,L}} |{hl(i):|hl(i)|<ε}| / |hl| 其中 ε=0.01 为稀疏性阈值,hl 表示第 l 层的激活。

这些度量从正交角度观察模型计算:激活幅度表示处理强度,注意力熵衡量计算复杂度,稀疏性反映效率模式 [31 (https://arxiv.org/html/2605.15436#bib.bib31),32 (https://arxiv.org/html/2605.15436#bib.bib32)]。

## IV 结果与分析

### IV-A 整体架构比较

表II (https://arxiv.org/html/2605.15436#S4.T2)展示了编码器与解码器架构之间的比较分析。解码器模型在我们的研究中表现出与单编码器模型显著不同的激活模式。

表II: 架构比较
编码器架构(BERT-Base)表现出更高的注意力熵(125.58 vs 77.47),但稀疏性显著更低(0.039 vs 0.276),这表明其注意力分布更分散,计算利用密度更高。

### IV-B 特定任务激活模式

表III (https://arxiv.org/html/2605.15436#S4.T3)展示了所有认知任务类别的综合统计数据,揭示了不同类型推理的独特计算特征。

表III: 所有模型的类别性能
数学推理表现出最高的注意力熵(195.66±46.66),确认了其跨所有架构的计算复杂度。值得注意的是,科学解释表现出最低的熵(47.03±19.10),表明解释性任务的注意力模式更为集中。

表IV (https://arxiv.org/html/2605.15436#S4.T4)显示了GPT2-117M在最终激活指标上的完全主导地位,占据了所有前10名位置。

表IV: 最终激活值前10名模型
### IV-C 参数规模效应

表V (https://arxiv.org/html/2605.15436#S4.T5)揭示了模型大小与激活模式之间的复杂关系,挑战了简单的缩放假设。

表V: 参数规模分析
数据揭示非单调关系:BLOOM-560M表现出最负的最终激活值(-1.84),而1.4B的Phi-1模型显示出极低的激活值(0.0009),表明存在架构优化。StableLM-3B表现出最高的稀疏性(0.616),表明较大模型中存在高效的选择性激活模式。

### IV-D 模型特定分析

表VI (https://arxiv.org/html/2605.15436#S4.T6)提供了每个模型在所有任务上的综合特征概览。

表VI: 完整模型统计摘要
BERT-Base表现出最高的注意力熵(125.58)但最低的稀疏性(0.039),这与编码器架构需要全面上下文理解的特点一致。GPT2-117M表现出最高的正最终激活值(0.328),而BLOOM-560M表现出最负的激活值(-1.836),表明存在不同的激活校准策略。

### IV-E 注意力熵分析

注意力熵分析揭示了跨认知任务的独特计算特征。表VII (https://arxiv.org/html/2605.15436#S4.T7)显示了按注意力熵排名前列的模型,其中数学推理在多个架构中占据主导地位。

表VII: 注意力熵前10名模型
数学推理占据了前4名位置和前10名中的6个,所有六个模型均在该任务上达到其最高熵值。这种跨架构的一致性表明数学推理任务固有的计算复杂度。

### IV-F 稀疏性模式与计算效率

表VIII (https://arxiv.org/html/2605.15436#S4.T8)显示了稀疏性最低(计算密度最高)的模型,揭示了特定任务的效率模式。

表VIII: 稀疏性最低(密度最高)的前10名模型
BERT-Base和BLOOM-560M在密度最高的计算中占据主导地位,其中数学推

相似文章

测量开放大语言模型中的最大激活值

arXiv cs.CL

本文测量了来自8个开放LLM家族的27个检查点的最大激活幅度,发现不同家族、架构和训练阶段之间存在显著差异,这对低位量化和部署具有影响。

Brain Score 追踪语言的共享属性:来自多种自然语言和结构序列的证据

arXiv cs.CL

本文研究了 Brain Score(一个将语言模型表征与人类阅读时 fMRI 激活进行比较的指标)是否真正捕捉到类似人类的语言处理,或仅反映结构相似性。研究人员在多种自然语言和非语言结构数据(基因组、Python、嵌套括号)上训练语言模型,发现在不同语言和非语言序列上训练的模型达到相似的 Brain Score 性能,这表明该指标可能不足以区分人类特有的处理方式。

LLM神经解剖学第三部分 - LLMs似乎以几何而非语言思考

Reddit r/LocalLLaMA

研究人员分析了LLMs在8种语言和多个模型中的内部表示,发现概念思考发生在transformer中间层的几何空间中,且与输入语言无关,这支持了类似于乔姆斯基理论的普遍深层结构假说,而非萨丕尔-沃尔夫语言相对论。