表示能力：Transformer语言模型中特征表示的几何限制

arXiv cs.LG 2026/06/03 04:00 论文

transformer-language-models feature-representation representational-capacity embedding-matrix johnson-lindenstrauss superposition-hypothesis linear-representation

摘要

本文基于线性表示和叠加假设，引入了一个定量框架，用于估计Transformer语言模型的潜在空间能够支持多少近似正交的方向。作者将表示能力定义为可区分特征的上限，并表明它对允许的正交偏差呈指数敏感，且更大的模型倾向于更严格的约束。

arXiv:2606.02765v1 公告类型：新摘要：模型维度（$d_{model}$）是Transformer语言模型中的一个基本超参数，但它在设定特征表示的几何限制方面的作用仍未得到充分探索。基于线性表示和叠加假设——这些假设提出模型将特征编码为潜在空间中的近似正交方向——我们开发了一个框架来估计模型能够支持多少个这样的方向。我们首先将嵌入矩阵确立为跨潜在空间近似正交约束的可测量代理：成对余弦相似度分布中有意义的token关系与偶然相似性之间的边界，给出了模型对完美正交性的允许偏差$\varepsilon$的具体估计。将该指标应用于数十个开源模型，揭示了两种类别：具有高$\varepsilon$的模型，其嵌入缺乏近似正交结构；以及具有低$\varepsilon$的模型，保持了这种结构。然后，我们表明标准的Johnson-Lindenstrauss引理大大低估了训练表示的填充效率，并推导出了一个调整后的容量公式，其中近似正交方向的数量取决于向量与维度的比率（$k/d$），而不是原始计数——这一单一修改在不增加额外参数的情况下将预测误差降低了两个数量级。结合这些结果，我们将表示能力定义为模型中潜在空间内可用于特征和嵌入的可区分方向数的上限。能力对$\varepsilon$呈指数敏感，且更大的模型倾向于更严格的正交约束，而不是最大化原始能力——这种模式与多种解释（稳定性-能力权衡、可用概念的上限、或与模型规模的混杂因素）兼容，我们将这些留给未来的工作。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:39

# 表示容量：Transformer语言模型中特征表示的几何极限
来源：https://arxiv.org/html/2606.02765

###### 摘要

模型维度 \(d_{model}\) 是基于Transformer的语言模型中的一个基本超参数，但它在决定特征表示的几何极限方面的作用仍未得到充分探索。基于线性表示假说和叠加假说——两者共同提出模型将特征编码为潜在空间中的近似正交方向——我们开发了一个定量框架来估计模型的潜在空间可以支持多少个这样的方向。我们首先将嵌入矩阵确立为衡量整个潜在空间中近似正交性约束的可测量代理，提出成对余弦相似度分布中有意义的词元关系与偶然相似性之间的边界可以为模型对完美正交性的可接受偏差 \(\varepsilon\) 提供具体估计。将此指标应用于数十个开源语言模型，揭示了两个不同的类别：高 \(\varepsilon\) 的模型（其嵌入缺乏近似正交结构）和低 \(\varepsilon\) 的模型（其保持严格的近似正交性约束）。然后，我们证明标准的 Johnson-Lindenstrauss 引理严重低估了训练后的表示的打包效率，并推导出一个调整后的容量公式，其中近似正交方向的数量取决于向量与维度的比率 \(k/d\) 而非仅原始计数——这一单一修改在没有额外自由参数的情况下将预测误差降低了两个数量级。结合这些结果，我们将*表示容量*定义为模型潜在空间内可用于特征和嵌入的可区分方向数量的定量上限。分析表明，容量对 \(\varepsilon\) 呈指数敏感，并且较大的模型倾向于选择更严格的正交性约束而非最大化原始容量——这一模式与多种解释（稳定性-容量权衡、可用概念上限或与整体模型规模的混淆）相容，我们将这些留待未来工作。

††脚注：代码：https://github.com/Alex-Guha/representational-capacity

## 1 引言

模型维度 \(d_{model}\) 是控制基于Transformer的语言模型参数数量的超参数之一，并且主要决定模型内嵌入 G (https://arxiv.org/html/2606.02765#A1.I1.ix1) 和潜在空间 G (https://arxiv.org/html/2606.02765#A1.I1.ix3) 的大小¹¹标有上标‘G’的术语定义见词汇表（附录A (https://arxiv.org/html/2606.02765#A1)）。。在实践中，\(d_{model}\) 是启发式地选择与其他超参数共同缩放，通常以 2 的幂次方以便于高效的 GPU 计算。

朴素地，人们可能期望长度为 \(d_{model}\) 的特征向量使用每个基向量来表示一个不同的特征。例如，如果 \(d_{model}=3\)，向量 \([1,0,0]\) 可能表示“猫”，而 \([0,1,0]\) 表示“狗”——那么 \(d_{model}\) 将直接限制模型可以处理的特征数量。实际上，神经网络长期以来被认为使用*分布式表示* G (https://arxiv.org/html/2606.02765#A1.I1.ix11)，其中每个特征由多个同时激活的基维度表示，并且每个基维度参与表示许多不同的特征（Bengio 等人 (2014 (https://arxiv.org/html/2606.02765#bib.bib17))）。这导致了*多语义性* G (https://arxiv.org/html/2606.02765#A1.I1.ix9)，即单个神经元对多个看似无关的输入激活的现象（Olah 等人 (2020 (https://arxiv.org/html/2606.02765#bib.bib18))）。

分布式表示的一个获得显著关注的特定实例是*线性表示假说* G (https://arxiv.org/html/2606.02765#A1.I1.ix5) (LRH)。继词嵌入背景下语言规律性概念的引入（*例如* “King − Man + Woman ≈ Queen”）（Mikolov 等人 (2013 (https://arxiv.org/html/2606.02765#bib.bib2))）之后，这一假说提出神经语言模型普遍倾向于将概念和特征表示为潜在空间中的方向。最近的工作为训练模型中存在此类线性特征方向提供了强有力的证据。Cunningham 等人 (2023 (https://arxiv.org/html/2606.02765#bib.bib12)) 使用稀疏自编码器 (SAE) 将语言模型激活分解为稀疏、可解释的组件，恢复了包括“个人名字部分，尤其是姓氏”和“法律术语和法庭案例引用”在内的特征方向。在此基础上，Templeton 等人 (2024 (https://arxiv.org/html/2606.02765#bib.bib13)) 将该方法扩展到 Claude 3 Sonnet，提取了数百万个单语义特征——特定实体、代码语法、抽象概念——包括“金门大桥”的特征方向，并证明沿着这些方向放大激活可预测地引导模型行为。Park 等人 (2024 (https://arxiv.org/html/2606.02765#bib.bib14)) 通过理论分析补充了这些实证发现，表明沿特定方向的因果干预可以可预测地操纵模型行为，进一步巩固了线性方向与概念表示之间的联系。

在线性表示的基础上，*叠加假说* G (https://arxiv.org/html/2606.02765#A1.I1.ix6) 通过提出神经网络利用近似正交性 G (https://arxiv.org/html/2606.02765#A1.I1.ix7) 来表示比可用维度数量更多的概念来解释多语义性（Elhage 等人 (2022 (https://arxiv.org/html/2606.02765#bib.bib1))）。这一想法基于 Johnson-Lindenstrauss (JL) 引理 G (https://arxiv.org/html/2606.02765#A1.I1.ix8)（Johnson 和 Lindenstrauss (1984 (https://arxiv.org/html/2606.02765#bib.bib4))）。正如附录 B (https://arxiv.org/html/2606.02765#A2) 中详述的，该引理关于距离保持的保证意味着单位向量之间的内积也在一个小的可接受偏差 \(\varepsilon\) 内被保持，从而允许在高维空间中存在指数级数量的近似正交方向。根据叠加假说，神经网络通过将特征表示为 \(\mathbb{R}^{d_{model}}\) 中的近似正交方向来利用这一特性，使得可表示概念的数量相对于 \(d_{model}\) 呈指数增长。

关键的是，上述基于 SAE 的研究不仅证明了线性特征表示的存在，还提供了潜在空间中叠加的直接经验证据。Templeton 等人 (2024 (https://arxiv.org/html/2606.02765#bib.bib13)) 从 Claude 3 Sonnet 中提取了数百万个可解释特征，该模型的潜在维度比恢复的特征数量小数个数量级。由于这些特征表示在一个维度远少于特征数量的空间中，它们必然以近似正交的方式排列——这是叠加的几何标志。这确立了潜在空间中的近似正交性不仅仅是一种理论可能性，而是训练模型的一个观察到的属性。

#### 贡献。

本文研究了控制一个 Transformer 在其 \(d_{model}\) 维潜在空间内可以表示多少特征的几何约束。如果模型像叠加假说所提出且 SAE 研究经验支持的那样将特征编码为近似正交方向，那么此类方向的数量受空间几何属性的限制：具体而言，是其维度以及对完美正交性偏差的容忍度。受分词化与嵌入结构之间关系的启发（在第 2 节 (https://arxiv.org/html/2606.02765#S2) 中讨论），我们分析嵌入矩阵的相似度分布，作为一种估计模型潜在空间内近似正交性可接受偏差 \(\varepsilon\) 的方法。在初始化时，嵌入矩阵通过随机权重将正交的独热向量映射到 \(\mathbb{R}^{d_{model}}\)，并且由于高维空间中的随机向量以高概率近似正交——这是 Johnson-Lindenstrauss 引理背后的几何性质——初始嵌入继承了这种近似正交结构。训练修改但很大程度上保留了这种结构：训练后的分布发展出一个延长的右尾，对应于词汇关系（同一词元的形态变体）和语义关系（概念上相关的词元），而大多数不相关词元对仍紧密聚集在零相似度附近。有意义关系与偶然相似性之间的边界——估计为分布的 \(\mu + 2\sigma\)——为 \(\varepsilon\) 提供了一个具体的（尽管是启发式的）阈值。应用于数十个开源模型，这个估计器揭示了两类不同的模型：高 \(\varepsilon\) 模型缺乏近似正交的嵌入结构，而低 \(\varepsilon\) 模型则维持这种结构。然后，我们证明标准的 Johnson-Lindenstrauss 界限严重低估了训练表示所达到的打包效率，并推导出一个经验调整的公式，其中容量取决于比率 \(k/d\) 而非单独的 \(k\)——这一单一修改在没有额外自由参数的情况下将预测误差降低了两个数量级。结合这些，我们将*表示容量* G (https://arxiv.org/html/2606.02765#A1.I1.ix10) 定义为潜在空间内可用可区分方向数量的定量上限，揭示了可用的近似正交方向构成了嵌入、反嵌入和特征之间的共享资源，容量对 \(\varepsilon\) 呈指数敏感，并且较大的模型倾向于选择更严格的正交性而非原始容量。

## 2 嵌入

本节将嵌入建立为一种可测量的代理，用于估计模型潜在空间 G (https://arxiv.org/html/2606.02765#A1.I1.ix3) 内近似正交性 G (https://arxiv.org/html/2606.02765#A1.I1.ix7) 的可接受偏差 \(\varepsilon\)。我们描述了训练后嵌入矩阵的相似度分布特征（包括构成其尾部的词汇和语义关系），提出了一个 \(\varepsilon\) 的估计器，并将其应用于数十个模型，揭示了两类不同的模型。

### 2.1 分词化与嵌入空间

分词化通过嵌入矩阵 \( \boldsymbol{E} \in \mathbb{R}^{V \times d_{model}} \) G (https://arxiv.org/html/2606.02765#A1.I1.ix1) 将 \(V\) 个词汇表中的每个词元映射到一个学习的 \(d_{model}\) 维向量，这相当于将独热向量 \( \boldsymbol{e}_i \in \mathbb{R}^{V} \) 乘以 \( \boldsymbol{E} \) 得到 \( \boldsymbol{x}_i = \boldsymbol{E}^{\top} \boldsymbol{e}_i \)。根据构造，输入的独热向量是完美正交的：对于所有 \(i \neq j\)，有 \(\langle \boldsymbol{e}_i, \boldsymbol{e}_j \rangle = 0\)。然而，完美正交性需要一个维度至少等于向量数量的空间——\(V\) 个词元需要 \(V\) 维空间——并且由于在实践中 \(d_{model} \ll V\)（典型的 \(V\) 为 30,000–130,000，而 \(d_{model}\) 范围为 768–8,192），\( \boldsymbol{E} \) 必然将这些独热向量投影到一个更小的空间中，在此严格正交性不再可实现。在随机初始化时，由于 Johnson-Lindenstrauss 引理 G (https://arxiv.org/html/2606.02765#A1.I1.ix8)，得到的嵌入以高概率近似正交，因此嵌入矩阵可以被理解为词汇空间的压缩表示；正如我们将看到的，训练在很大程度上保留了这种结构。

这些嵌入位于 \(\mathbb{R}^{d_{model}}\) 中，与所有后续潜在表示占据相同的空间：残差流意味着嵌入、中间潜在变量 G (https://arxiv.org/html/2606.02765#A1.I1.ix2) 和特征都共存于 \(\mathbb{R}^{d_{model}}\) 中，并受到相同的几何约束。因此，我们假设在嵌入中观察到的近似正交性反映了更广泛潜在空间的属性，但有一个限定条件：如附录 C (https://arxiv.org/html/2606.02765#A3) 所讨论的，具有绑定嵌入和反嵌入矩阵的模型表现出不同的结构属性，表明它们的嵌入可能不具有代表性。

### 2.2 训练后的嵌入结构

对于每个模型，我们计算所有词元嵌入之间的成对余弦相似度 \(\text{sim}(i,j) = \langle \boldsymbol{x}_i, \boldsymbol{x}_j \rangle / (\|\boldsymbol{x}_i\| \|\boldsymbol{x}_j\|)\)。在许多训练过的模型中，得到的分布紧密集中在零附近（图 1 (https://arxiv.org/html/2606.02765#S2.F1)），与其随机初始化时非常相似；近似正交性通过训练得以保持。

参见图注 图 1：不同模型之间词元嵌入的成对余弦相似度分布，展示了近似正交性。

这种保持并非巧合：虽然下一个词元预测并未明确激励近似正交性，但它也不需要嵌入相互坍缩。我们假设模型通过保持近似正交性来维持结构化的表示空间：如果嵌入*倾向于* G (https://arxiv.org/html/2606.02765#A1.I1.ix12) 隐藏的特征方向，那么保持近似正交性有助于避免特征之间的干扰（正如线性表示假说所建议的）。

然而，仔细检查时，仍然可以观察到两种与随机初始化的系统性偏差（图 2 (https://arxiv.org/html/2606.02765#S2.F2)）：分布略微向右偏移（偏离零的负相似性，可能因为负的成对相似性会使 QKV 投影更难以产生有用的查询-键交互），并且它们呈现出略微不对称的尾部——右尾比左尾延伸得更远，反映了某些词元对之间的有意义关系，我们接下来将对此进行考察。

参见图注 图 2：嵌入相似度分布的放大视图，揭示了从零开始的右移和略微不对称的尾部。

### 2.3 词汇和语义词元关系

相似度分布中延长的右尾对应于具有真正词汇或语义关系的词元对。将这些关系与偶然相似性区分开来至关重要：有意义的相似性不应计入对正交性的违反，而偶然相似性代表了模型对特征干扰的容忍度。

参见图注 (a) 词汇关系
参见图注 (b) 语义关系

图 3：词元嵌入中词汇和语义关系的示例。词汇关系 (a) 显示了具有共享表面形式的词元；语义关系 (b) 显示了概念上相关但没有词汇重叠的词元。最后一对（quick–un）作为无关的基线。突出的词汇关系可以通过检查最近邻结构来识别。对于每个词元 \(i\)，我们计算其最近邻 \(\text{nn}(i) = \operatorname{argmax}_{j \neq i} \text{sim}(i,j)\)。

表示能力：Transformer语言模型中特征表示的几何限制

相似文章

刻画神经过程的表征能力

我发现Transformer中一个预测几何稳定性的隐藏比率 [R]

多种心理空间的单一机制：语言模型中共享路由器作用于值槽

当Transformer学习"不可能"语言时，它们学到了什么？

表示差距：从几何角度解释神经网络异常有效性

提交意见反馈