循环权重空间中的任务受限对称性

arXiv cs.LG 论文

摘要

本文通过使用有序实Schur坐标来识别保持任务性能的结构消融,研究循环神经网络中的功能冗余,发现任务受限对称性在不同任务和训练方案之间存在差异。

arXiv:2606.18457v1 公告类型:新 摘要:循环网络在权重空间中可能包含大量功能冗余:改变循环矩阵几乎不会改变任务分布上的输入-输出滚动结果,而类似尺度的变化却可能破坏相同行为。我们使用有序实Schur坐标研究单层tanh RNN中的这种冗余。Schur形式将谱块与有向非正规耦合分离,为保持输入和读出映射不变的结构消融提供了诊断基础。在固定长度复制任务中,某些训练方案可以移除选定的非正规Schur耦合而几乎没有损失,而其他耦合对于准确的自主重放是必要的。在触发器、正弦波生成和上下文相关整合任务中,保持损失的消融特征在不同任务和训练方案之间有所不同。这些结果识别了候选近似功能不变性,而非循环权重空间的普遍对称性。Schur坐标消融提供了一种实用的诊断方法,用于判断哪些结构扰动能保留训练好的循环解,哪些会破坏其计算。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:43

# 循环权重空间中的任务受限对称性
来源: https://arxiv.org/html/2606.18457
###### 摘要

循环网络在权重空间中可能包含大量的功能冗余:改变循环矩阵可能使输入-输出展开在任务分布上几乎保持不变,而类似规模的变化却可能破坏相同的行为。我们利用有序实舒尔坐标研究单层 tanh RNN 中的这种冗余性。舒尔形式将谱块与有向非正规耦合分离开,为保持输入和读出映射固定的结构化消融提供了诊断基础。在固定长度的复制任务中,某些训练好的解中可以选择性地去除部分非正规舒尔耦合而损失很小,而其他耦合对于准确的自主回放至关重要。在触发器、正弦波生成和上下文相关整合等任务中,保持损失的消融轮廓因任务和训练解而异。这些结果识别出候选的近似功能不变性,而非循环权重空间的通用对称性。舒尔坐标消融提供了一种实用的诊断方法,用于判断哪些结构化扰动能够保持训练好的循环解,哪些会破坏其计算。

权重空间对称性, 循环神经网络, 舒尔分解, 非正规性

## 1 引言

精确的权重空间对称性已成为比较神经网络和直接在参数空间中学习的实用工具 (Entezari 等, 2022 (https://arxiv.org/html/2606.18457#bib.bib3); Ainsworth 等, 2023 (https://arxiv.org/html/2606.18457#bib.bib1); Navon 等, 2023 (https://arxiv.org/html/2606.18457#bib.bib2), 2024 (https://arxiv.org/html/2606.18457#bib.bib4))。这些对称性识别出能精确保持实现函数的变换,最近的工作将这种结构直接构建到以训练好的网络作为输入的模型中 (Zhou 等, 2023 (https://arxiv.org/html/2606.18457#bib.bib15); Kofinas 等, 2024 (https://arxiv.org/html/2606.18457#bib.bib16))。循环网络也可能允许对循环矩阵进行大规模结构化改变,这些改变仅近似地保持任务行为,且仅在任务分布上成立。这些方向不属于精确的群论对称性,但仍在塑造权重空间的功能几何。

有序舒尔坐标揭示了在结构化扰动下的候选近似功能不变性。由于由此产生的消融轮廓因任务和训练解而异,因此不应将其解读为非正规分量通常可以忽略的证据。它们识别出某个特定循环解可以失去哪些舒尔坐标耦合而仍保持其原始输入-输出展开,以及哪些耦合承载任务特定功能。

由于 tanh RNN 不允许将任意正交基变化作为精确对称性,原始循环坐标使得非正规结构难以在不同运行之间进行比较。实舒尔分解利用正交基、对角或拟对角谱块以及严格上三角非正规相互作用来表示每个实循环矩阵。已知此类相互作用塑造瞬态循环计算 (Murphy 和 Miller, 2009 (https://arxiv.org/html/2606.18457#bib.bib10); Hennequin 等, 2012 (https://arxiv.org/html/2606.18457#bib.bib11); Bondanelli 和 Ostojic, 2020 (https://arxiv.org/html/2606.18457#bib.bib12); Pattadkal 等, 2024 (https://arxiv.org/html/2606.18457#bib.bib14)),而有序舒尔坐标使它们可比且可消融。

舒尔坐标消融能保持某些块的展开函数,但不能保持其他块。在复制任务中,选定的消融产生几乎相同的自主回放精度,而有向跨扇区消融将模型移至精度较低的行为。神经科学风格的任务为相同干预提供了范围测试。复制任务提供了显式时间对称性;触发器、正弦波生成和上下文相关整合任务则问同一个诊断基础是否也能定位其他循环计算中的脆弱方向 (Sussillo 和 Barak, 2013 (https://arxiv.org/html/2606.18457#bib.bib5); Mante 等, 2013 (https://arxiv.org/html/2606.18457#bib.bib6); Maheswaranathan 等, 2019 (https://arxiv.org/html/2606.18457#bib.bib7); Schuessler 等, 2024 (https://arxiv.org/html/2606.18457#bib.bib13))。任务相关消融轮廓将近似不变性与展开分布联系起来,而不是与舒尔块的与任务无关的属性。

## 2 有序舒尔坐标

一个单层 tanh RNN 映射输入 \(x_t \in \mathbb{R}^{N_x}\)、隐藏状态 \(h_t \in \mathbb{R}^{N_h}\)、输出 \(\hat{y}_t \in \mathbb{R}^{N_y}\),

\[
\begin{aligned}
h_t &= \tanh(W_{xh} x_t + W_{hh} h_{t-1}), \quad h_0 = 0, \tag{1}\\
\hat{y}_t &= W_{hy} h_t, \tag{2}
\end{aligned}
\]

其中 \(W_{xh} \in \mathbb{R}^{N_h \times N_x}\)、\(W_{hh} \in \mathbb{R}^{N_h \times N_h}\) 且 \(W_{hy} \in \mathbb{R}^{N_y \times N_h}\)。所有报告的实验将循环和读出偏置设为零,即 \(b_h = b_y = 0\)。

对于训练好的循环矩阵,记 \(W = W_{hh}\)。其实舒尔分解为

\[
W = Q T Q^\top, \tag{3}
\]

其中 \(Q\) 是正交矩阵,\(T\) 是实拟上三角矩阵 (Trefethen 和 Embree, 2005 (https://arxiv.org/html/2606.18457#bib.bib8))。我们分解

\[
T = B + N, \tag{4}
\]

其中 \(B\) 包含块对角 \(1 \times 1\) 和 \(2 \times 2\) 实舒尔特征值块,而 \(N\) 包含这些块之间的严格块上三角非正规耦合。

舒尔块按特征值模非增序排列。相对阈值 \(\alpha\) 将主要谱块与其补集分开:

\[
R = \{ i : |\lambda_i| \geq \alpha \rho(W) \}, \quad C = \{1, \ldots, N_h\} \setminus R.
\]

这里 \(\lambda_i\) 是与第 \(i\) 个舒尔块关联的特征值,\(\rho(W) = \max_j |\lambda_j|\) 是 \(W\) 的谱半径。\(R\) 索引用作参考扇区的主要类旋转子空间,而 \(C\) 索引其余舒尔块,这些块与 \(R\) 及彼此之间的耦合将通过消融进行测试。在这种有序划分中,

\[
B = \begin{pmatrix} B_R & 0 \\ 0 & B_C \end{pmatrix}, \quad N = \begin{pmatrix} T_{RR} & T_{C \rightarrow R} \\ 0 & T_{CC} \end{pmatrix}. \tag{5}
\]

\(T_{RR}\)、\(T_{C \rightarrow R}\) 和 \(T_{CC}\) 是非正规耦合矩阵 \(N\) 的块,而非独立的特征值块。交叉块 \(T_{C \rightarrow R}\) 是在有序舒尔坐标中从补集扇区到主要扇区的右上耦合。

对于一组舒尔耦合块 \(S\),干预操作将 \(N\) 中对应的条目置零,重构

\[
\widetilde{W}_{hh}(S) = Q \widetilde{T}(S) Q^\top, \tag{6}
\]

并在不改变输入或读出权重的情况下重新评估原始网络。设 \(f_W\) 表示训练好的网络在任务分布 \(\mathcal{D}\) 上的展开函数。这种固定编码器/固定解码器干预测试原始输入-输出映射在原始读出坐标中是否被保持。在消融后重新拟合线性或岭解码器将回答另一个问题:扰动后的潜在动态是否仍包含任务信息(直到新的读出)。

对于展开差异 \(d_{\mathcal{D}}\) 和容差 \(\varepsilon\),当 \(d_{\mathcal{D}}(f_W, f_{\widetilde{W}_{hh}(S)}) \leq \varepsilon\) 时,干预 \(S\) 是 \(\mathcal{D}\) 上的 \(\varepsilon\)-稳定器。当一个舒尔耦合块被置零后产生很小的差异,同时移除了不可忽略的舒尔质量时,该块就是某个训练解的一个候选近似功能不变性。如果性能急剧变化,则该块位于该训练解的一个脆弱功能方向上。

对于神经科学风格的任务,留出误差通过下式衡量:

\[
\mathrm{FVU} = \frac{\mathbb{E} \| \hat{y} - y \|^2}{\mathbb{E} \| y - \bar{y} \|^2}. \tag{7}
\]

期望是对留出展开求得的,\(y\) 是目标轨迹,\(\hat{y}\) 是模型输出,\(\bar{y}\) 是评估集上目标的经验均值。对于这些任务,报告两个摘要:

\[
\begin{aligned}
\Delta \mathrm{FVU} &= \mathrm{FVU}(\widetilde{W}_{hh}) - \mathrm{FVU}(W_{hh}), \tag{8}\\
S_{\Delta T} &= \frac{\Delta \mathrm{FVU}}{\| \Delta T \|_F / \| T \|_F}. \tag{9}
\end{aligned}
\]

其中 \(\Delta T = T - \widetilde{T}(S)\),\(\| \cdot \|_F\) 表示 Frobenius 范数。\(\Delta \mathrm{FVU}\) 捕捉训练尺度上的效果,而 \(S_{\Delta T}\) 衡量每单位移除舒尔质量的效果。这些扰动是在训练后评估的;不重新拟合任何输入或读出权重。

我们在主要实验中始终使用 \(\alpha = 0.9\)。这个值是预先选择的,作为分组高模舒尔块到 \(R\) 的简单相对谱半径截断,而不是为某个消融结果调优的。该阈值仅控制用于将非正规耦合分配给 \(T_{RR}\)、\(T_{C \rightarrow R}\) 和 \(T_{CC}\) 的 \(R/C\) 划分。在复制任务控制器上进行的近阈值检查保持了相同的定性轮廓(表 1 (https://arxiv.org/html/2606.18457#S2.T1))。

表 1: 对舒尔分裂阈值的敏感性。数值为 128 个滞后上的平均自主回放精度。主要实验使用 \(\alpha = 0.9\)。

### 坐标选择。

即使对于强非正规矩阵,舒尔基仍然保持正交 (Trefethen 和 Embree, 2005 (https://arxiv.org/html/2606.18457#bib.bib8))。当瞬态放大很大时,直接特征坐标通常条件数差,使得跨运行比较不稳定,并将分量消融变成对基敏感的运算。通过将谱块与非正规耦合分离并按特征值模排序,实舒尔形式将这些耦合转变为结构化扰动方向。与特征坐标相比,舒尔坐标为扰动和解释循环动态提供了可重复的诊断基础。

## 3 复制任务中的近似稳定器

复制任务是长程循环记忆基准测试 (Hochreiter 和 Schmidhuber, 1997 (https://arxiv.org/html/2606.18457#bib.bib17); Arjovsky 等, 2016 (https://arxiv.org/html/2606.18457#bib.bib18)) 的固定延迟变体,相关的固定长度复制任务已被用于研究行波循环模型 (Keller 等, 2024 (https://arxiv.org/html/2606.18457#bib.bib19))。该任务呈现一个长度为 \(s=8\) 的符号序列,符号取自 \(\{-1,+1\}^d\),其中 \(d=8\),然后将输入设为零,网络自主复现存储的序列。回放精度在输入序列之后的前 128 个生成符号上进行测量。复制任务实验在 \(N_h \in \{56, 64, 72\}\) 下训练单层 tanh RNN,采用四种循环构造。设 \(m = N_h^{-1/2}\)。三种密集构造优化无约束矩阵 \(W_{hh} \in \mathbb{R}^{N_h \times N_h}\),仅初始化 \(W_{hh}^{(0)}\) 不同:

- 密集默认: \(W_{hh,ij}^{(0)} \sim \mathrm{Unif}[-m, m]\),
- 密集正交: \(W_{hh}^{(0)} = Q, \quad Q^\top Q = I\),
- 密集正规: \(W_{hh}^{(0)} = Q D_{\mathrm{norm}} Q^\top\),

其中

\[
D_{\mathrm{norm}} = \mathrm{blockdiag}(B_1, \ldots, B_{N_h/2}), \quad B_i = \begin{pmatrix} a_i & -b_i \\ b_i & a_i \end{pmatrix}, \quad a_i, b_i \sim \mathcal{N}(0, 1/6).
\]

对于 Cayley 构造,每个优化迭代满足 \(W_{hh}^{(k)} = O(A^{(k)}) D^{(k)} O(A^{(k)})^\top\),其中 \((A^{(k)})^\top = -A^{(k)}\) 且

\[
O(A) = (I - A)(I + A)^{-1}.
\]

初始化时,

\[
U_{ij} \sim \mathrm{Unif}[-m, m], \quad A^{(0)} = (U - U^\top)/2, \quad \widetilde{W}_{ij} \sim \mathrm{Unif}[-m, m], \quad D^{(0)} = \mathrm{realblock}(\mathrm{eig}(\widetilde{W})),
\]

其中 \(\mathrm{realblock}(\cdot)\) 将共轭特征值对转换为上述形式的 \(2 \times 2\) 实块。

对于 \(\mathcal{Z} = \{T_{RR}, T_{C \rightarrow R}, T_{CC}\}\) 和 \(S \subseteq \mathcal{Z}\),干预操作为

\[
\widetilde{W}_{hh}(S) = Q Z_S(T) Q^\top,
\]

\[
\bigl(Z_S(T)\bigr)_B = \begin{cases} 0, & B \in S, \\ T_B, & B \notin S, \end{cases} \qquad B \in \mathcal{Z}.
\]

\(\{T_{RR}, T_{C \rightarrow R}, T_{CC}\}\) 之外的条目不变。对于 \(\mathcal{D}_{\mathrm{rc}}\) 和 \(\mathcal{L} = \{1, \ldots, 128\}\),

\[
\hat{y}_{\ell j}^S(x) := \hat{y}_{\ell j}(x; \widetilde{W}_{hh}(S)),
\]

\[
\mathrm{Acc}_{\mathrm{rc}} = \frac{1}{|\mathcal{D}_{\mathrm{rc}}| |\mathcal{L}| d} \sum_{\substack{(x,y) \in \mathcal{D}_{\mathrm{rc}} \\ \ell \in \mathcal{L}, \, j \in [d]}} \mathbf{1}\{ \operatorname{sgn}(\hat{y}_{\ell j}^S(x)) = y_{\ell j} \}.
\]

参见标题图 1:复制任务中的候选近似功能不变性。由灰色线段连接的点仅因额外置零 \(T_{CC}\) 而不同。在密集正交模型中,移除 \(T_{CC}\) 后,自主回放函数在条件于其他已移除块时几乎保持不变,而 \(T_{RR}\) 和 \(T_{C \rightarrow R}\) 则将网络移入较低准确度的功能类别。Cayley 变换代表具有可忽略的补集块,在所示消融下变化很小。

在密集正交 \(N_h=72\) 模型中,仅移除 \(T_{CC}\) 使平均回放精度保持在 1.00,与完整模型一致(图 1 (https://arxiv.org/html/2606.18457#S3.F1))。在其他舒尔块已被移除后,这种近似等价性仍然成立:\(-T_{RR}\) 和 \(-T_{RR}, -T_{CC}\) 分别给出 0.876 和 0.875;\(-T_{C \rightarrow R}\) 和 \(-T_{C \rightarrow R}, -T_{CC}\) 均给出 0.639;\(-T_{RR}, -T_{C \rightarrow R}\) 和将三个块全部置零均给出 0.624。因此,一旦其他被消融的块固定,对非正规舒尔耦合进行选定的结构化改变可以保持任务行为。

对于这个已求解的复制任务控制器,\(T_{CC}\) 在条件于其他已移除块的情况下接近一个稳定器。移除 \(T_{C \rightarrow R}\) 将密集模型移至一个不同的功能类别,而移除 \(T_{RR}\) 产生一个不同的中间类别。Cayley 代表

相似文章

理解并强制任务算术中的权重解耦

Hugging Face Daily Papers

本文提出即插即用正则项 OrthoReg,通过在微调阶段强制权重正交,无需额外计算即可提升任务算术与模型融合效果。

大型语言模型中的涌现式重分词对称性:现象学与应用

arXiv cs.CL

本文发现,大型语言模型在重分词下部分表现出涌现式对称性——即在不改变字节的情况下,将提示的标准分词替换为另一种有效的分词方式。作者利用这一现象来探究组合理解能力,并提出将重分词作为一种新颖的推理时采样策略,能够恢复传统温度采样无法找到的解。