重新审视Padded Transformer的表达能力：哪些架构选择重要，哪些不重要

arXiv cs.LG 2026/06/01 04:00 论文

摘要

这篇理论论文分析了填充Transformer的表达能力，表明与数值精度和模型深度相比，注意力类型、宽度和均匀性的影响很小。它建立了Transformer变体与电路复杂性类（如AC0和TC0）之间的等价关系，提供了稳健的特征描述。

arXiv:2605.30523v1 公告类型：新摘要：近期研究通过布尔电路连接描述了Transformer能计算和不能计算的内容，但现有结果缺乏精确表征，且对建模选择敏感。Padded Transformer——在其输入中附加填充符号（如“...”）——通过为自适应并行计算提供多项式空间，成为建立与电路类等价关系的有用工具。然而，目前仅研究了有限的Padded Transformer理想化模型，尚不清楚这些等价关系在注意力类型、模型宽度和均匀性变化时的稳健性。我们发现，在实际假设下，Padded Transformer对所有这些因素都出奇地稳健，并确定数值精度和模型深度是影响表达能力的主要因素。具体地，我们证明多项式填充的$\text{L-uniform}$恒定精度Transformer等价于$\text{L-uniform AC}^0$，而增长精度的Transformer无论宽度如何都能达到$\text{L-uniform TC}^0$。此外，循环机制实现了类似于电路的顺序处理：$\log^d N$次循环的恒定精度Transformer达到$\text{FO-uniform AC}^d$，增长精度的则达到$\text{FO-uniform TC}^d$。有趣的是，宽度或精度超过对数范围并不会增加表达能力，且我们的所有结果对softmax和平均硬注意力Transformer均成立。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:26

# 哪些架构选择重要，哪些不重要  
来源：https://arxiv.org/html/2605.30523  
## 重新审视填充Transformer的表达能力：哪些架构选择重要，哪些不重要  

###### 摘要  

近期工作通过布尔电路连接描述了Transformer能计算和不能计算的内容，但现有结果缺乏精确刻画，并且对建模选择非常敏感。**填充**Transformer——在其输入末尾附加诸如“...”等填充符号——作为一种有用工具出现，通过提供自适应并行计算的多项式空间，建立与电路类的**等价性**。然而，目前仅研究了有限一组填充Transformer理想化模型，这些等价性在注意力类型、模型宽度和统一性变化下的稳健性仍未明确。我们发现，在实际假设下，填充Transformer对所有上述因素出奇地**稳健**，并识别出数值精度和模型深度是影响表达能力的主要因素。具体而言，我们证明多项式填充的L-均匀常量精度Transformer与L-均匀AC^0等价，而增长精度Transformer则与L-均匀TC^0等价，无论宽度如何。此外，**循环**使得顺序处理类似于电路：log^d N次循环的常量精度Transformer达到FO-均匀AC^d，增长精度Transformer则达到FO-均匀TC^d。有趣的是，将宽度或精度增长到超过对数水平并不会增加表达能力，且我们所有结果对**软注意力**和**平均硬注意力**Transformer均成立。  
机器学习，ICML  

## 1 引言  

大量工作探索了Transformer的表达能力，即Transformer能计算和不能计算哪些函数。由于这类工作属于形式化研究，必须数学上精确地定义模型的所有方面。然而，显而易见的是，Transformer的表达能力可能对某些设计选择高度敏感；例如，注意力的类型——软注意力与硬注意力——对Transformer能识别的语言有严重影响（Hao等人，2022 (https://arxiv.org/html/2605.30523#bib.bib21)；Jerad等人，2025 (https://arxiv.org/html/2605.30523#bib.bib24)）。这导致关于Transformer表达能力的多样且有时难以调和的结果，其中看似相似的Transformer变体——仅在例如数值精度假设上稍有不同——却能实现截然不同的表达能力（Strobl等人，2024 (https://arxiv.org/html/2605.30523#bib.bib47)）。与这种脆弱性形成鲜明对比的是，我们证明**填充Transformer**（Pfau等人，2024 (https://arxiv.org/html/2605.30523#bib.bib42)）——在输入处理之前附加多项式多个专用填充符号□——对模型规范的各种变化出奇地**稳健**，包括注意力类型、模型宽度和参数统一性。相反，数值精度和模型深度成为决定表达能力的主要因素；log精度填充Transformer总是比常量精度Transformer更具表达能力，且表达能力随模型深度增加而增长。一旦在L-均匀填充Transformer（即可以由对数空间图灵机构造的Transformer；参见定义2.4 (https://arxiv.org/html/2605.30523#S2.Thmdefinition4)）中达到对数精度，注意力类型、模型宽度或精度的进一步增长就不再影响表达能力。这对理论家和实践者可能都有吸引力：一方面，它简化了理论分析，可以专注于最容易研究的任何等价规范；另一方面，它表明所推导的刻画更可能描述现实世界模型。  

AC/TC分界  
图1：多项式填充Transformer在不同深度（↓）、精度（↓）、统一性（→）和宽度（→）设置下的表达能力，忽略不满足充分体积约束（参见定义2.3 (https://arxiv.org/html/2605.30523#S2.Thmdefinition3)）的参数化。与大多数现有Transformer表达能力结果不同，这些结果对填充Transformer是**精确**的。紫色线标记了AC/TC分界：常量精度Transformer限于AC^d，而增长精度Transformer达到TC^d。†标记Merrill & Sabharwal（2025a (https://arxiv.org/html/2605.30523#bib.bib35)）关于完全均匀AHAT（平均硬注意力Transformer）的结果，⋆标记London & Kanade（2025 (https://arxiv.org/html/2605.30523#bib.bib32)）关于L-均匀SMAT（软注意力Transformer）的结果。  

直观上，填充抽象了自适应增加推理时并行计算的方式，例如暂停符号（Pfau等人，2024 (https://arxiv.org/html/2605.30523#bib.bib42)）和文本扩散模型（Svete & Sabharwal，2026 (https://arxiv.org/html/2605.30523#bib.bib48)），这些方式提升了Transformer在多种任务上的实证性能（Pfau等人，2024 (https://arxiv.org/html/2605.30523#bib.bib42)；Goyal等人，2024 (https://arxiv.org/html/2605.30523#bib.bib17)；London & Kanade，2025 (https://arxiv.org/html/2605.30523#bib.bib32)）。填充已被证明是研究Transformer表达能力的有用理论工具，产生了**精确**的表达能力刻画——但仅针对特定的统一性、精度、宽度和注意力类型选择（Li等人，2024b (https://arxiv.org/html/2605.30523#bib.bib30)；Merrill & Sabharwal，2025a (https://arxiv.org/html/2605.30523#bib.bib35)；London & Kanade，2025 (https://arxiv.org/html/2605.30523#bib.bib32)），留下了这些刻画如何稳健的开放问题。我们对大量可能的Transformer理想化集合（参见图1 (https://arxiv.org/html/2605.30523#S1.F1)）的全面分析揭示了填充Transformer以前未知的、对这些差异的稳健性。  

填充促进了与**布尔电路**——一种通过无环图形式的逻辑门层处理固定长度输入的计算模型——的特别便捷的连接（Hao等人，2022 (https://arxiv.org/html/2605.30523#bib.bib21)；Merrill & Sabharwal，2023 (https://arxiv.org/html/2605.30523#bib.bib33)；Li等人，2024b (https://arxiv.org/html/2605.30523#bib.bib30)；London & Kanade，2025 (https://arxiv.org/html/2605.30523#bib.bib32)等）。自然且被充分理解的电路类示例包括AC^d——使用AND、OR和NOT门，门数量随字符串长度N多项式增长，深度随log^d N增长——以及TC^d，后者增加了测试活跃输入数量是否超过某个阈值的阈值门。虽然与电路的连接已成为理解Transformer的富有成效的途径，但建立与自然电路类的**等价性**却困难重重：注意力机制在N上著名的**二次**复杂度从根本上**限制**了Transformer能执行的并行计算量为N的二次量。Transformer如何执行三次或更高次多项式的并行计算尚不清楚，这使得与自然电路类的等价性不太可能。因此，大多数Transformer到电路的连接采取（松散的）**上界**形式——证明Transformer可以被AC^0或TC^0电路模拟——而没有匹配的下界。  

我们研究Transformer架构的突出方面如何影响多项式填充Transformer的精确表达能力，以建立一组对模型规范变化稳健的等价性。我们关注：(1) 注意力类型（软注意力（SMAT）和平均硬注意力（AHAT）Transformer）；(2) 数值精度、宽度和深度的缩放；(3) Transformer构造的统一性。  

通过将焦点转向填充的统一Transformer族，我们在现有文献中发现了秩序。研究**族**是必要的，因为让Transformer参数依赖于上下文长度需要对每个长度构建一个单独的模型。¹¹¹没有统一性约束时，Transformer和电路会具有不切实际的强大能力。例如，考虑一元语言\{1^N | 第N台图灵机停机\}（在某个固定图灵机枚举下）。这个不可判定语言可以被非均匀电路族识别，因为我们可以将每个输入长度N的正确答案硬编码到电路C_N中。统一性条件通过要求单个可行的算法来构造族中所有电路，从而防止此类病态情况。  

一个统一族描述了每个模型是如何构建的。我们研究L-均匀族（London & Kanade，2025 (https://arxiv.org/html/2605.30523#bib.bib32)），它要求Transformer可以通过一个简单计算模型——对数空间图灵机——构建。我们基于London & Kanade（2025 (https://arxiv.org/html/2605.30523#bib.bib32)）对填充L-均匀SMAT的刻画，以及Merrill & Sabharwal（2025a (https://arxiv.org/html/2605.30523#bib.bib35)）对填充log精度**完全**均匀AHAT（其中一组参数适用于每个输入长度）的刻画（参见图1 (https://arxiv.org/html/2605.30523#S1.F1)中†和⋆标记的格子）。通过连接AHAT和SMAT，将London & Kanade（2025 (https://arxiv.org/html/2605.30523#bib.bib32)）的结果转换为AHAT，并将Merrill & Sabharwal（2025a (https://arxiv.org/html/2605.30523#bib.bib35)）的结果扩展到常量精度Transformer，我们建立了以下结果，总结在图1 (https://arxiv.org/html/2605.30523#S1.F1)中：  

1. (1) 常量与增长精度以及AC/TC表达能力分界：数值精度的影响出现一致趋势：它决定了等价关系是到L-均匀AC^0（常量精度）还是到L-均匀TC^0电路（增长精度）。  
2. (2) 我们发现填充具有稳健性：一个特别重要的量是Transformer的体量V(N)=def b·D——即Transformer每层每个符号可用的比特数，其中b表示数值精度，D表示模型宽度。只要体量至少为Ω(log N)（这是区分N个输入位置所必需的），L-均匀填充Transformer对其规范的变化是**稳健**的：它们要么匹配L-均匀AC^0（常量精度），要么匹配L-均匀TC^0（增长精度）。注意力类型、宽度和超过对数的精度**并不影响**表达能力。  
3. (3) 循环的自然缩放：**循环**赋予Transformer并行和顺序处理能力，使其能够识别常量深度Transformer无法识别的正则语言（Merrill & Sabharwal，2025b (https://arxiv.org/html/2605.30523#bib.bib36)）和上下文无关语言（Jerad等人，2026 (https://arxiv.org/html/2605.30523#bib.bib25)）。我们将常量深度Transformer的刻画扩展到循环Transformer，表明其表达能力在所有设置下与电路类似地缩放：Θ(log^d N)次循环的常量精度Transformer达到FO-均匀AC^d，而增长精度Transformer达到FO-均匀TC^d。当d→∞时，两者都趋近NC = ⋃_{d≥0} AC^d = ⋃_{d≥0} TC^d。  
4. (4) 在增长精度下，增加宽度或削弱统一性没有好处：完全均匀和L-均匀的增长精度填充Transformer，在Θ(log^d N)次循环下，无论宽度如何，都等价于FO-均匀TC^d。多项式精度相对于对数精度也没有额外好处。  
5. (5) 描述体量不足（o(log N)）的Transformer的表达能力是困难的，需要自然电路类。可能需要理解AC^d的子类。  

## 2 预备知识  

这里，我们介绍论文的核心对象：两种注意力变体（SMAT和AHAT）、Transformer的宽度、精度和体量、统一Transformer族、定点算术以及循环填充Transformer。我们在形式化表述上遵循Merrill & Sabharwal（2025a (https://arxiv.org/html/2605.30523#bib.bib35)）和London & Kanade（2025 (https://arxiv.org/html/2605.30523#bib.bib32)）。我们在此概述设置，并在附录A (https://arxiv.org/html/2605.30523#A1)中给出更多细节。  

我们研究实践中常用的软注意力Transformer（SMAT）以及理论文献中常偏好的平均硬注意力Transformer（AHAT）。两者都可以通过温度缩放软注意力来定义，该机制根据未归一化注意力分数x∈R^N、位置n∈[N]和温度τ>0计算长度为N的输入的注意力权重，如下：  
softmax_τ(x)_n = exp(x_n/τ) / ∑_{n'=1}^N exp(x_{n'}/τ). (1)  
我们视温度τ=τ(N)为

重新审视Padded Transformer的表达能力：哪些架构选择重要，哪些不重要

相似文章

Transformer 数学探索器 [P]

Transformers 本质上是简洁的

基于有界深度文法的深度Transformer层次建模表达性分析

@akshay_pachaar: 扩展上下文窗口不仅仅是关于更大的矩阵。在传统的Transformer中，将token数量扩大8倍会…

超越 FP16 + ONNX 的 Transformer 体积与推理优化（剪枝/图优化收效甚微）[P]

提交意见反馈