层表示动力学:跨嵌入器和基础大语言模型的实证研究

arXiv cs.LG 论文

摘要

本文引入了层表示动力学(LRD),这是一个包含三个测量家族的框架,用于分析语言模型中各层隐藏状态的变化。应用于30个MTEB任务上的31个模型,LRD揭示了架构差异,并实现了无标签模型选择和推理时层剪枝。

arXiv:2605.12714v1 Announce Type: new 摘要:在现代语言模型中,隐藏状态在各层之间变化显著,但大多数逐层分析只关注变化的某一方面。我们提出了层表示动力学(LRD),这是一个包含三个逐层测量家族的框架:用于全局子空间运动的Frenet(格拉斯曼速度和曲率)、用于局部最近邻保留的邻域保留分数(NRS),以及用于与最终层对齐的图过滤互信息(GFMI)。将LRD应用于30个MTEB任务上的31个模型(基于编码器和解码器的嵌入器,以及基础大语言模型),揭示了仅凭最终层表示无法显现的架构和任务级差异。然后,我们将LRD用于两个应用:无标签模型选择和推理时层剪枝。在模型选择方面,所有三个模型级得分均与下游MTEB性能正相关,其中端到端子空间位移(d_{0,L})最强,且相同方向在更小的基础大语言模型MMLU面板上成立。在剪枝方面,GFMI是唯一在15%和20%预算下优于随机方法的测量引导规则,并且在每个预算下都具有最佳中位数变化。Frenet仅在最小预算下有效,而NRS无法从模型选择迁移到剪枝。这些结果表明,逐层结构为解释和部署决策提供了信号。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:17

# 逐层表示动力学:跨嵌入器与基础大型语言模型的实证研究
来源:https://arxiv.org/html/2605.12714

Jingzhou Jiang Yi Yang Kar Yan Tam  
香港科技大学  
[email protected] [email protected], [email protected]  

###### 摘要

现代语言模型的隐藏状态在各层之间发生显著变化,但大多数逐层分析仅关注这一变化的某一方面。我们提出逐层表示动力学(Layer-wise Representation Dynamics, LRD),这是一个包含三个逐层测量族的方法框架:Frenet(Grassmann速度和曲率)用于全局子空间运动、邻域保留分数(Neighborhood Retention Score, NRS)用于局部最近邻保留、以及图过滤互信息(Graph Filtration Mutual Information, GFMI)用于与最终层的对齐。将LRD应用于30个MTEB任务上的31个模型(基于编码器的嵌入器、基于解码器的嵌入器以及基础大型语言模型),揭示了仅凭最终层表示无法体现的架构和任务层面的差异。我们随后将LRD应用于两个实际任务:无标签模型选择和推理时层剪枝。在选择任务中,所有三个模型级分数与下游MTEB性能呈正相关,其中端到端子空间位移\(d_{0,L}\)最强,且相同的趋势在较小规模的基础LLM MMLU面板上同样成立。在剪枝任务中,GFMI是唯一在15%和20%预算下优于随机剪枝的基于测量的指导规则,并且在每个预算下均具有最佳中位数变化。Frenet仅在最低预算下有效,而NRS无法从模型选择迁移到剪枝。这些结果表明,逐层结构为模型解释和部署决策提供了有价值的信息。

## 1 引言

现代语言模型并非以相同方式构建其隐藏表示。基于编码器的嵌入器和基于解码器的嵌入器以及基础大型语言模型(LLM)在产生最终层状态之前,可能通过不同的逐层结构组织相同的样本。理解这些结构至关重要,因为语义空间是在各层之间塑造的,而不仅仅由最终嵌入决定。表示相似性方法使得不同层和模型之间的隐藏状态具有可比性[31](https://arxiv.org/html/2605.12714#bib.bib21),[73](https://arxiv.org/html/2605.12714#bib.bib22);而最近的逐层分析表明,中间层可以揭示仅靠最终层无法捕捉的结构[60](https://arxiv.org/html/2605.12714#bib.bib32)。因此,我们分析每个模型在相同输入上产生的逐层表示序列,并从多个角度比较这些序列跨模型的表现。

然而,目前仍不常见以统一方式从多个角度比较这些序列。逐层研究使得序列变得可见,但通常只强调一个标准,例如探针、相似性分数或分组规则[29](https://arxiv.org/html/2605.12714#bib.bib43),[18](https://arxiv.org/html/2605.12714#bib.bib44),[14](https://arxiv.org/html/2605.12714#bib.bib53),[39](https://arxiv.org/html/2605.12714#bib.bib57)。利用表示作为证据的方法,如无标签模型选择[11](https://arxiv.org/html/2605.12714#bib.bib46),通常依赖单个表示(通常是最终嵌入),很少纳入逐层视角。因此,表示的形成过程在模型解释和基于表示的决策中都未得到充分利用。

受这些观察的启发,我们提出了逐层表示动力学(LRD),这是一种基于三个互补的逐层测量族的分析方法。每个族针对层序列的不同方面,三者互补而非冗余:一个族测量全局子空间运动,另一个测量局部最近邻保留,第三个测量与最终层的对齐。对于每个模型-任务对,LRD跟踪同一个样本通过网络的过程,从而能够区分哪些层在全局上重新定向表示、哪些层维持局部邻域、哪些层已经与最终层组织相似。

我们将LRD应用于30个MTEB任务上的31个现成模型。模型池包含25个嵌入器(基于编码器和基于解码器)和6个基础LLM。任务包括分类、检索、语义文本相似度、重排序和重复检测。通过这一组模型-任务对,我们可以比较不同架构和任务类型之间的逐层行为。除了分析,我们还使用LRD进行模型选择和层剪枝。

我们的贡献有三方面:(1)我们提出了LRD,一个包含三个互补测量族的框架,分别捕捉全局子空间运动、局部邻域保留和跨层的最终层对齐。(2)LRD揭示了仅凭最终层表示无法体现的架构和任务层面差异。(3)LRD的测量值用于两个应用:在MTEB上进行模型选择时,所有三个模型级分数与下游性能呈正相关,其中\(d_{0,L}\)最强;在层剪枝中,GFMI在15%和20%预算下优于随机剪枝,并且在每个预算下具有最佳中位数变化。

第2节回顾了逐层分析、基于表示的评估以及LRD基础的相关工作。第3节定义了三个测量族。第4节描述了模型-任务设置和族级观察,第5-6节展示两个应用研究,第7节讨论局限性并总结论文。

## 2 相关工作

### 2.1 逐层表示分析

现代语言模型的中间层并非只是输入和输出之间的均匀阶段,而是承载着语言和语义结构。关于BERT及相关编码器的探针研究发现,句法和语义信息位于特定的深度[65](https://arxiv.org/html/2605.12714#bib.bib33),[25](https://arxiv.org/html/2605.12714#bib.bib41)。最佳层和渐进分析进一步表明,语义信号并不总是在最终层最强,且隐藏状态序列可以划分为可识别的层组[60](https://arxiv.org/html/2605.12714#bib.bib32),[29](https://arxiv.org/html/2605.12714#bib.bib43),[18](https://arxiv.org/html/2605.12714#bib.bib44)。另一条互补的研究线记录了具体的逐层现象:依赖目标的从底向上累积[69](https://arxiv.org/html/2605.12714#bib.bib34)、深层各向异性和窄锥形行为[13](https://arxiv.org/html/2605.12714#bib.bib39),[17](https://arxiv.org/html/2605.12714#bib.bib40),以及更广泛的Transformer几何观察,涉及子空间结构、相位变化和轨迹形状[55](https://arxiv.org/html/2605.12714#bib.bib18),[68](https://arxiv.org/html/2605.12714#bib.bib30),[27](https://arxiv.org/html/2605.12714#bib.bib31),[37](https://arxiv.org/html/2605.12714#bib.bib42)。这些结果共同确立了层序列作为有价值的研究对象,并激发了我们在LRD中发展的逐层分析。

然而,在这些工作中,选用的分析单位差异很大:例如探针目标、两个层矩阵之间的相似性分数、粗略的层块、或如子空间方向或曲率等几何量。每种选择都很好地回答了其自身的问题,但这些证据很少在统一协议下跨越多个模型族和任务类型而被整合在一起。LRD并非提出另一个单一标准,而是规定了一个统一的逐层提取协议,并在相同的模型-任务对上报告三个互补的测量族,从而使得跨模型和跨任务的比较建立在共同的测量基础上。

### 2.2 基于表示的模型评估

内部表示也可作为模型评估的证据,先于完整任务特定评估。表示相似性分析(RSA)及其神经网络扩展通过示例之间的成对关系或学习到的表示矩阵来比较系统[31](https://arxiv.org/html/2605.12714#bib.bib21),[73](https://arxiv.org/html/2605.12714#bib.bib22),[32](https://arxiv.org/html/2605.12714#bib.bib24),[54](https://arxiv.org/html/2605.12714#bib.bib20),[47](https://arxiv.org/html/2605.12714#bib.bib19),[10](https://arxiv.org/html/2605.12714#bib.bib23)。对齐性标准则询问嵌入空间是否与外部语言或结构参考一致[67](https://arxiv.org/html/2605.12714#bib.bib49),[22](https://arxiv.org/html/2605.12714#bib.bib48)。有效秩方法如RankMe利用学习到的表示的频谱作为下游性能的无监督代理[19](https://arxiv.org/html/2605.12714#bib.bib47);信息充分性标准如EMIR在基准评估之前通过表示级信号对嵌入器进行排序[11](https://arxiv.org/html/2605.12714#bib.bib46)。这些方法确立了表示结构可以携带有信息量的预评估信号,但证据通常来自每个模型的单个表示,多数情况是最终嵌入。该嵌入的形成过程在很大程度上被搁置了。LRD的模型选择研究直接利用了这个形成过程:它将同一示例上的完整逐层序列作为无标签证据,用于预测下游MTEB性能。

### 2.3 度量基础与角色

LRD将三个测量族作为互补诊断工具,整合在一个共享的逐层分析协议下。我们并不宣称有一个统一的理论将三者融合为一个分数。每个族针对不同类型的逐层变化,并基于各自的前期工作。前几节对LRD施加了两个约束:表示应被跨深度追踪,且所得证据不应被压缩为单个整体相似性值。额外的逐层探针研究进一步强化了这一点,表明信息层可能取决于特征类型、架构和下游用途[40](https://arxiv.org/html/2605.12714#bib.bib35),[28](https://arxiv.org/html/2605.12714#bib.bib36),[15](https://arxiv.org/html/2605.12714#bib.bib37),[78](https://arxiv.org/html/2605.12714#bib.bib38)。对于LRD而言,其含义并非选择另一个最佳层或另一个单一相似性分数,而是保持不同的测量角色。主导子空间旋转、局部邻域重排序以及中间层到最终层的对齐是不同的事件,即使它们可能产生相似的聚合相似性。

为了隔离全局子空间成分,LRD采用了Grassmann几何,其中主角度距离给出了子空间位移的标准概念[1](https://arxiv.org/html/2605.12714#bib.bib27)。这一选择与先前关于隐藏状态结构如何跨层变化的Transformer几何分析一致[55](https://arxiv.org/html/2605.12714#bib.bib18),[68](https://arxiv.org/html/2605.12714#bib.bib30)。LRD中的Grassmann速度和曲率属于这一子空间角色,并不旨在作为局部或图级结构的代理。

对于局部成分,流形学习和图正则化方法通过邻域图表示局部结构[64](https://arxiv.org/html/2605.12714#bib.bib25),[4](https://arxiv.org/html/2605.12714#bib.bib26),[3](https://arxiv.org/html/2605.12714#bib.bib51)。这一观点直接关联到基于嵌入的检索和匹配,其中邻域结构和嵌入空间距离对任务性能至关重要[49](https://arxiv.org/html/2605.12714#bib.bib7),[56](https://arxiv.org/html/2605.12714#bib.bib1)。邻域保留分数(NRS)建立在这一谱系之上。

对于最终层对齐成分,图过滤互信息(GFMI)结合了三种传统:对齐风格比较[67](https://arxiv.org/html/2605.12714#bib.bib49),[22](https://arxiv.org/html/2605.12714#bib.bib48)、基于过滤的多尺度图比较[12](https://arxiv.org/html/2605.12714#bib.bib28)以及互信息分区比较[52](https://arxiv.org/html/2605.12714#bib.bib29)。捆绑这三个族的目标并非将它们压缩为一个数字,而是在单一评估协议中保留它们各自不同的敏感性。

## 3 逐层测量族

在本节中,我们定义了三个测量族,用于量化表示随层演化的方式。对于每个任务,我们固定一组\(N\)个样本,索引为\(i=1,\ldots,N\)。对于一个具有层\(0,\ldots,L\)的模型,层\(l\)产生一个表示矩阵\(X_l \in \mathbb{R}^{N \times d}\),其中\(d\)是表示维度,\(X_l\)的第\(i\)行是样本\(i\)在层\(l\)的表示。测量值在离散矩阵序列\(X_0, X_1, \ldots, X_L\)上计算。

### 3.1 全局子空间运动:Grassmann速度和曲率

Frenet测量族将每一层表示为其主导线性子空间,并将层序列视为子空间空间中的离散路径,其中相邻层距离起速度作用,三层曲率起弯曲作用。我们借鉴了Raghu等人[54](https://arxiv.org/html/2605.12714#bib.bib20)使用的子空间约简方法,并通过其主导奇异子空间比较中心化表示矩阵。对于每个模型-任务对,我们将子空间维度\(r\)固定为解释最终层表示\(X_L\)方差95%的最小秩。我们使用最终层是因为\(X_L\)是下游任务使用的表示,并且我们将相同的\(r\)应用于每一层,以便所有子空间都位于\(\mathrm{Gr}(d, r)\)中,即\(\mathbb{R}^d\)的\(r\)维子空间的Grassmann流形。

对于层\(l\),\(Q_l \in \mathbb{R}^{d \times r}\)表示该子空间的正交基,由中心化\(X_l\)的顶部\(r\)个右奇异向量给出。层之间的距离在\(\mathrm{Gr}(d, r)\)上计算。如果\(\theta_1, \ldots, \theta_r\)是\(Q_a\)和\(Q_b\)之间的主角度,我们使用Grassmann测地距离[1](https://arxiv.org/html/2605.12714#bib.bib27)
\[
d_{\mathrm{Gr}}(Q_a, Q_b) = \left( \sum_{i=1}^r \theta_i^2 \right)^{1/2}, \qquad \theta_i = \arccos \sigma_i(Q_a^\top Q_b).
\]
(1)
这里\(\sigma_i(\cdot)\)表示第\(i\)个奇异值。记\(d_{a,b} = d_{\mathrm{Gr}}(Q_a, Q_b)\)为层\(a\)和\(b\)之间的距离。相邻层速度为\(s_l = d_{l, l+1}\)。大的\(s_l\)意味着主导方向在从层\(l\)到\(l+1\)时仍在变化。小的\(s_l\)表示全局子空间相对稳定。

为了捕捉子空间路径是否改变方向,我们还计算连续三层的Menger曲率。分配给中间层的曲率为
\[
\kappa_{l+1} = \frac{4A}{d_{l,l+1} d_{l+1,l+2} d_{l,l+2}},
\]
(2)
其中\(A\)是由边长\(a = d_{l,l+1}, b = d_{l+1,l+2}, c = d_{l,l+2}\)通过海伦公式计算的三角形面积:\(A = \sqrt{p(p-a)(p-b)(p-c)}\),其中\(p = (a+b+c)/2\)。退化三元组(如零面积三角形)被分配零曲率。

相似文章

TIDE:每一层都知晓上下文中的令牌

arXiv cs.CL

本文介绍了 TIDE,一种通过嵌入记忆(Embedding Memory)将令牌身份注入每一层,从而解决大语言模型(LLM)中罕见令牌问题和上下文崩溃问题的方法。作者在理论上和经验上证明了该方法在语言建模和下游任务中的改进。

论词汇性在大语言模型中的持续影响

arXiv cs.CL

本文研究了词汇重叠(而非语义内容)如何影响跨层和跨架构的大语言模型表示,并证明即使在为语义相似性训练的模型中,这种词汇效应依然存在,导致下游任务性能下降。