RT-Transformer:将 Transformer Block 视为球面状态估计器

arXiv cs.LG 论文

摘要

本文提出了一种理论框架,解释 Transformer 组件(注意力机制、残差连接、归一化)如何源于使用径向-切线随机微分方程(Radial-Tangential SDEs)的球面状态估计问题。

arXiv:2605.11007v1 公告类型:new 摘要:我们证明,Transformer block 的核心组件——注意力机制、残差连接和归一化——自然地源于单一的几何估计问题。通过将潜在状态建模为超球面上的方向,并在当前估计点的切平面上定义噪声,可得出一种精度加权的方向推断过程:其中注意力机制聚合证据,残差连接实现状态的增量更新,而归一化则将更新后的状态重新映射回超球面。因此,这些组件是估计问题的几何性质的自然结果,而非作为独立的架构选择被引入。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:27

# RT-Transformer:将 Transformer 块视为球形状态估计器
来源: https://arxiv.org/html/2605.11007
###### 摘要

我们表明,Transformer 块的核心组件——注意力、残差连接和归一化——自然源于单一几何估计问题。将潜在状态建模为超球面上的方向,并在当前估计的切平面上定义噪声,可产生一种精度加权的方向推断过程:在此过程中,注意力聚合证据,残差连接实现增量状态更新,而归一化则将更新后的状态重新映射回超球面。这些组件共同遵循估计问题的几何结构,而非作为独立的架构选择被引入。

## 1 引言

尽管 Transformer 块在实证上取得了巨大成功,但其缺乏统一的解释:注意力、残差连接和归一化通常作为单独的设计选择被引入。这提出了一个基本问题:是什么底层原则将这些操作联系在一起,为什么这种特定结构如此有效?

一个有用的视角是将注意力视为一种滤波器,用于聚合关于潜在线性随机微分方程(SDE)的多个预测。在这种解释中,每个 token 提供共享潜在状态的一个候选估计,注意力根据其可靠性进行组合。关键在于,这种聚合必须保持计算上的可行性,要求不确定性能够以闭式形式传播和求逆,同时保持注意力完全并行 $O(d)$ $\mathcal{O}(d)$ 的结构。

这些要求对可接受的潜在动态模型类别施加了强约束。在线性动态和各向同性噪声的假设下,协方差传播简化为时间的标量函数,从而保持了注意力的计算可行性。这产生了一个欧几里得滤波模型,其中每个方向上的不确定性相同。

虽然各向同性噪声产生了可处理的注意力形式,但它是一个很强的限制:它排除了任何不确定性依赖于状态的模型。然而,通用的各向异性噪声破坏了并行注意力所需的可处理结构,因为协方差传播和求逆变得完全稠密且依赖于状态。因此,核心挑战在于识别保持闭式状态和协方差传播的最通用各向异性不确定性模型。超球面提供了满足这些要求的最简单几何结构,因为不确定性自然地分解为随潜在状态动态共同旋转的径向和切向分量。

这激发了*径向-切向 SDE*(RT-SDE)的研究,其中过程噪声和测量噪声分解为与超球面上瞬时状态方向对齐的径向和切向分量。RT-SDE 的关键结构属性是噪声与潜在状态共同旋转,导致协方差积分中的旋转项相互抵消。因此,在小角度扩散 regime 下,尽管存在状态依赖性,传播的协方差仍然保持解析上的可处理性——这正是方向推断良定义的 regime。

RT-SDE 产生了一个可处理的*RT-Filter*,其中每个 token 被归一化以位于球面上,并在旋转动态下传输到查询位置。精度加权聚合(注意力)产生方向估计,状态通过在切空间中朝该估计迈出一小步(残差连接)然后重新映射回球面(归一化)来更新。这产生了熟悉的“加和归一化”操作,为球面上的测地线步长提供了一阶近似。在这种视角下,归一化不是辅助稳定机制,而是方向状态估计的几何结果。

我们表明,带有旋转位置编码(Rotary Positional Encodings)的 Transformer 紧密近似 RT-Filter 的结构,不包括前馈网络(FFN),因为 FFN 未由当前滤波公式推导得出。该公式的一个后果是 token 幅度编码方向置信度,角度不确定性随 $1/m^2$ 缩放。

RT-Filter 对 Transformer 的修改提出了具体的架构预测:注意力 logits 应包含幅度依赖的精度,根据方向估计的置信度对键进行加权。查询、键和值应在投影后归一化,以确保注意力在单位方向上操作,这是球形状态空间所要求的。最后,测地线步长通过切空间校正更忠实地实现,该校正在残差连接之前移除注意力输出中与当前状态对齐的分量。这些修改直接源于底层模型,而非作为独立的设计选择。

我们的主要贡献如下:

1. 径向-切向 SDE(RT-SDE):一种结构化随机模型,其中噪声局限于当前状态的切平面,保持闭式协方差传播和可处理的精度计算。
2. 注意力的方向解释:超球面上潜在方向的精度加权估计器,其中 token 幅度编码方向置信度。
3. Transformer 块统一推导:将注意力、残差连接和归一化推导为单一滤波更新的组件——朝向新估计的切空间步长,随后重新映射到球面上。
4. 架构修改:与标准 Transformer 的三个具体偏离:幅度依赖的注意力精度、QKV 归一化,以及在残差连接之前移除注意力输出径向分量的切空间残差校正。

本工作侧重于 RT 滤波的理论公式和几何解释。全面的实证评估和缩放研究将在未来工作中呈现。

## 2 相关工作

### 2.1 注意力作为估计和滤波

Transformer 架构(Vaswani et al., 2017 (https://arxiv.org/html/2605.11007#bib.bib15))已从几个理论角度进行分析,包括核平滑(Tsai et al., 2019 (https://arxiv.org/html/2605.11007#bib.bib23))、现代 Hopfield 网络等联想记忆模型(Ramsauer et al., 2021 (https://arxiv.org/html/2605.11007#bib.bib73))以及注意力的概率解释(Gabburt et al., 2021 (https://arxiv.org/html/2605.11007#bib.bib82); Bianchessiet al., 2026 (https://arxiv.org/html/2605.11007#bib.bib161))。这些工作主要重新解释注意力权重或注意力核,而不是从底层动态估计框架中推导出更广泛的 Transformer 块。

鲁棒滤波注意力(RFA)(Racioppo, 2026 (https://arxiv.org/html/2605.11007#bib.bib209))将注意力推导为在线性随机微分方程(SDE)下演化的潜在状态的近似最大似然估计器。在此公式中,通过各向同性欧几里得噪声模型实现可处理性,将协方差传播简化为每对查询-键的标量精度。

我们的工作通过将其扩展到各向异性设置同时保持可处理性,建立在滤波视角的基础上。特别是,我们引入了径向-切向 SDE,其中不确定性分解为与状态方向平行和垂直的组件。这在不破坏注意力所需的闭式、$O(d)$ $\mathcal{O}(d)$ 计算的情况下实现了结构化各向异性,并允许滤波解释扩展到整个 Transformer 块(不包括 FFN)。

### 2.2 几何视角和归一化

几项工作从几何或动态角度研究 Transformers。Molina 将 token 嵌入解释为由 LayerNorm 维持的超球面上的轨迹(Molina, 2024 (https://arxiv.org/html/2605.11007#bib.bib165)),而 Geshkovski et al. 将球面上的自注意力分析为相互作用粒子动态(Geshkovski et al., 2025 (https://arxiv.org/html/2605.11007#bib.bib120))。相关研究表明,LayerNorm 显著改变了自注意力的长期动态,实现了稳定的高阶均衡并减轻了表示崩溃(Wu et al., 2024 (https://arxiv.org/html/2605.11007#bib.bib217))。

另一条互补的研究路线研究归一化作为几何操作。Brody et al. 表明 LayerNorm 将表示投影到超平面并增加注意力表达能力(Brody et al., 2023 (https://arxiv.org/html/2605.11007#bib.bib213)),而 QKNorm 等归一化方案(Henry et al., 2020 (https://arxiv.org/html/2605.11007#bib.bib215))在注意力机制中经验性地探索查询/键归一化。更新的架构明确限制表示为超球面流形(Loshchilov et al., 2025 (https://arxiv.org/html/2605.11007#bib.bib198))或引入受测地线启发的更新规则和球面上的归一化方案(Zhenget al., 2026 (https://arxiv.org/html/2605.11007#bib.bib210))。

这些工作主要几何地解释或强加球形结构。相比之下,我们从底层随机滤波模型中推导超球面动态。在我们的公式中,球形几何源于 RT-SDE 中的状态依赖各向异性不确定性,而归一化对应于与方向滤波相关的重新映射。这将在统一的概率框架内将注意力、残差更新和归一化联系起来。

## 3 方法

我们将各向同性滤波扩展为建模方向依赖的不确定性,同时保持闭式协方差传播和可处理的精度加权估计。

我们首先回顾线性随机动态下的各向同性滤波,然后介绍 RT-SDE 并推导其闭式协方差传播。径向-切向分解产生一个因子化估计器,其中方向推断简化为超球面上的精度加权聚合。将其实现为增量更新导致 RT-Filter,它被 Transformer 紧密近似。

### 3.1 背景:鲁棒滤波注意力

鲁棒滤波注意力(RFA)(Racioppo, 2026 (https://arxiv.org/html/2605.11007#bib.bib209))将注意力解释为线性动态传输下的近似贝叶斯滤波。过去的 token 通过线性动态传播到查询位置,潜在状态通过鲁棒精度加权 M-估计器进行估计:

$$
\bar{\mathbf{z}}_i = \left( \sum_{j \leq i} w_{ij} \mathbf{P}_{ij} \right)^{-1} \sum_{j \leq i} w_{ij} \mathbf{P}_{ij} \hat{\mathbf{z}}_{ij}, \tag{1}
$$

其中 $\hat{\mathbf{z}}_{ij} = e^{\mathbf{A} \Delta t_{ij}} \mathbf{z}_j$ 是传输的观测值,$w_{ij}(d_{ij}^2)$ 作为马氏距离的函数对不一致的预测进行降权。

在对角化动态和各向同性过程噪声下,协方差传播简化为时间滞后的标量函数,产生具有 $O(N^2 d)$ $\mathcal{O}(N^2 d)$ 复杂度的可处理注意力机制。下面开发的 RT-SDE 通过用超球面上的径向-切向协方差结构替换标量不确定性,推广了各向同性 RFA。完整的推导和背景见附录 A (https://arxiv.org/html/2605.11007#A1)。

### 3.2 径向-切向 SDE(RT-SDE)

为了在允许方向不确定性的同时保持解析协方差传播,我们引入*径向-切向 SDE*(RT-SDE),其中过程噪声和测量噪声在动态的特征基中与潜在状态方向共同旋转。

我们考虑线性随机微分方程:

$$
d\mathbf{x}(t) = \mathbf{A}(t)\mathbf{x}(t) \, dt + \mathbf{G}(t) \, d\mathbf{w}(t), \qquad \mathbf{z}(t_k) = \mathbf{x}(t_k) + \mathbf{v}(t_k). \tag{2}
$$

我们假设动态可对角化,$\mathbf{A}(t) = \mathbf{S} \mathbf{\Lambda}(t) \mathbf{S}^{-1}$,并在特征基中进行滤波:

$$
\mathbf{x}_s(t) = \mathbf{S}^{-1}\mathbf{x}(t), \qquad \mathbf{z}_s(t_k) = \mathbf{S}^{-1}\mathbf{z}(t_k).
$$

状态分解为幅度和方向:

$$
\mathbf{x}_s(t) = m(t) \mathbf{u}(t), \qquad m(t) = \| \mathbf{x}_s(t) \|_2, \qquad \mathbf{u}(t) = \frac{\mathbf{x}_s(t)}{\| \mathbf{x}_s(t) \|_2}.
$$

我们假设衰减和过程噪声在潜在状态的径向和切向方向上独立作用。定义径向和切向投影算子

$$
\mathbf{P}_R(\mathbf{u}) = \mathbf{u}\mathbf{u}^{\dagger}, \qquad \mathbf{P}_T(\mathbf{u}) = \mathbf{I} - \mathbf{u}\mathbf{u}^{\dagger},
$$

我们在特征基中将状态依赖的动态定义为:

$$
\mathbf{\Lambda}(\mathbf{u}(t)) = -\mu_r \mathbf{P}_R(\mathbf{u}(t)) - \mu_t \mathbf{P}_T(\mathbf{u}(t)) + \mathbf{\Lambda}_{\Omega},
$$

其中 $\mathbf{\Lambda}_{\Omega} \in i\mathbb{R}^{d \times d}$ 是对角的并生成旋转传输。

同样,径向和切向扩散通过投影维纳增量独立建模:

$$
d\mathbf{w}_r = \mathbf{P}_R(\mathbf{u}) d\mathbf{w}, \qquad d\mathbf{w}_t = \mathbf{P}_T(\mathbf{u}) d\mathbf{w}.
$$

 resulting RT-SDE 为:

$$
d\mathbf{x}_s = \left( -\mu_r \mathbf{P}_R(\mathbf{u}) - \mu_t \mathbf{P}_T(\mathbf{u}) + \mathbf{\Lambda}_{\Omega} \right) \mathbf{x}_s \, dt + \sigma_r d\mathbf{w}_r + \sigma_t d\mathbf{w}_t. \tag{3}
$$

投影维纳增量诱导出特征基中的过程协方差

$$
\mathbf{\Lambda}_Q(\mathbf{u}(t)) = \sigma_r^2 \mathbf{P}_R(\mathbf{u}(t)) + \sigma_t^2 \mathbf{P}_T(\mathbf{u}(t))
$$

因此,环境过程协方差为 $\mathbf{Q}(t) = \mathbf{S} \mathbf{\Lambda}_Q(\mathbf{u}(t)) \mathbf{S}^{\dagger}$,其中 $\mathbf{Q}(t) = \mathbf{G}(t)\mathbf{G}(t)^{\top}$。

测量噪声同样分解为径向和切向分量:

$$
\mathbf{v}(t_k) \sim \mathcal{N}\left( \mathbf{0}, \eta_r^2 \mathbf{P}_R(\mathbf{u}) + \eta_t^2 \mathbf{P}_T(\mathbf{u}) \right).
$$

归一化测量值得到观测方向 $\mathbf{u}_z(t_k) = \mathbf{z}_s(t_k) / \| \mathbf{z}_s(t_k) \|$.

相似文章

Transformer 残差流的动力学:谱几何与网络拓扑的耦合

arXiv cs.LG

本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。

Transformer 数学探索器 [P]

Reddit r/MachineLearning

这个交互式工具通过数据流图可视化 Transformer 模型的数学基础,涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。

Transformer 记忆的吸引子几何:从冲突仲裁到自信幻觉

arXiv cs.AI

本文提出了一个统一的几何框架,用于理解 Transformer 的内存故障,通过隐藏状态吸引子盆地(attractor basins)区分冲突仲裁与幻觉。研究表明,随着模型规模的扩大,几何边际(geometric margin)在检测这些故障方面优于输出熵。