解锁门控Delta网络在大规模训练中的特征学习能力

arXiv cs.LG 2026/06/04 04:00 论文

摘要

本文推导了门控Delta网络的μP（最大更新参数化）缩放规则，实现了跨模型宽度的零样本超参数迁移，从而高效支持亚二次方复杂度的大语言模型架构。实验表明，在AdamW和SGD优化器下，该方法均能实现稳定的学习率迁移，而标准参数化方案则无法做到这一点。

arXiv:2606.04048v1 公告类型：新论文 **摘要：** 训练和扩展大语言模型需要消耗巨大的计算资源，这促使研究者同时探索高效的亚二次方架构与有原则的超参数调优方法。尽管最大更新参数化（$\mu$P）已为标准Transformer实现了零样本超参数迁移，但其向线性模型的扩展——尤其是具有结构化状态转移和复杂架构的模型——在很大程度上仍属未知领域。通过严格地在前向传播、门控机制和循环状态动态中传播坐标尺度估计，我们推导出了门控Delta网络的缩放规则。语言模型预训练实验证实，我们的配置在AdamW和SGD两种优化器下均能实现跨模型宽度的稳定学习率迁移，而标准参数化方案则无法迁移，从而验证了我们分析的正确性与实用价值。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:18

# 在规模化门控Delta网络中解锁特征学习
来源：https://arxiv.org/html/2606.04048
洛杉矶 \{liuyifeng,qgu\}@cs\.ucla\.edu

###### 摘要

训练和扩展大语言模型需要消耗大量计算资源，这促使研究者探索高效的亚二次方架构以及有原则的超参数调优方法。尽管最大更新参数化（μ\muP）已为标准Transformer实现了超参数的零样本迁移，但其在线性模型——尤其是具有结构化状态转移和复杂架构的模型——上的扩展仍鲜有探索。通过在前向传播、门控机制和循环状态动态中严格传播坐标尺度估计，我们推导出了门控Delta网络的缩放规则。语言模型预训练实验证实，我们的配置在AdamW和SGD两种优化器下均能实现跨模型宽度的稳定学习率迁移，而标准参数化则无法实现迁移，从而验证了我们分析的正确性与实用价值。

## 1 引言

大语言模型（LLM）的快速发展在各种下游任务中展现出了卓越的能力\(brown2020language;touvron2023llama;radford2019language;vaswani2017attention\)。然而，将这些模型扩展到更大规模带来了两个挑战。首先，经验性缩放定律表明，最优性能需要不断增大模型规模，而训练所需的计算开销随模型规模急剧增长\(kaplan2020scaling;hoffmann2022training\)。其次，标准Transformer架构的效率受限于softmax自注意力关于序列长度的二次方复杂度，使其在长上下文推理和训练中代价愈发高昂\(katharopoulos2020transformers\)。

线性模型被提出来解决上述问题。原始线性注意力\(katharopoulos2020transformers\)将softmax注意力改写为线性核，从而以恒定的每步代价实现循环形式的推理。结构化状态空间模型（SSM），如S4\(guefficiently\)、Mamba\(gu2024mamba\)和Mamba-2\(dao2024transformers\)，利用循环状态空间在线性结构中建模长程依赖。一类特别有前景的线性循环模型基于delta规则\(widrow1960adaptive\)，通过减去当前键值对的预测误差来更新快权重矩阵。此外，DeltaNet\(yang2024deltanet\)为delta规则Transformer引入了硬件高效的并行训练算法，使其能够扩展到大语言模型。随后，门控Delta网络\(yang2025gated\)将DeltaNet与Mamba-2的数据依赖门控机制相结合，在保持线性时间推理的同时，实现了出色的语言建模性能。

与此同时，训练深度网络需要仔细选择超参数（如学习率），通过网格搜索进行调优代价高昂\(snoek2012practical;snoek2015scalable\)，且最优值往往随模型规模发生显著变化。元学习方法已被探索用于在不同任务和数据集间迁移超参数\(yogatama2014efficient;perrone2018scalable;horvath2021hyperparameter;akiba2019optuna\)。最大更新参数化（μ\muP）\(yang2020feature\)提供了一种更有原则的解决方案，它识别出支持无限宽度极限下特征学习的神经网络有效参数化方式，并通过Tensor Programs框架进行了形式化\(yang2022tensor;yang2023tensor;TensorProgramVI\)。μ\muP理论证明了在小代理模型上调优的超参数可零样本迁移至大型目标模型，并扩展至自适应优化器\(yang2023tensor;ishikawaparameterization;everett2024scaling\)以及谱范数重新表述\(yang2023spectral\)。后续工作已成功将μ\muP应用于其他领域\(blakeu2025;dey2024sparse;hajjar2024training\)，甚至工业级模型\(meta2024llama4;team2025longcat\)。

尽管高效线性架构已取得进展，如何对其进行适当参数化以实现规模化特征学习却鲜有关注。核心挑战在于其循环状态沿序列维度更新，不符合标准的前馈或基于注意力的μ\muP推导框架。目前唯一与此相关的先驱工作是vankadara2024feature，该工作表明原始μ\muP和谱缩放条件均无法支持Mamba等对角SSM中的特征学习，并为其提出了修正的缩放规则。然而，门控Delta网络与对角SSM存在根本性差异，因为其循环状态是通过两个独立权重矩阵附加数据依赖标量门控的全矩阵更新。这些差异使得vankadara2024feature中针对SSM的分析不再适用，使门控Delta网络的μ\muP参数化成为一个尚未解决的问题。

在本文中，我们正式推导了门控Delta网络的完整μ\muP表述。我们的主要贡献如下：

- •我们从理论上推导了贯穿完整前向传播的坐标尺度估计，同时推导出了所有权重类别的有原则初始化方差、前向乘子和学习率缩放规则。我们发现，门控权重矩阵需要非标准的Θ\(1/d\)\\Theta\(1/\\sqrt\{d\}\)学习率缩放，标量门控参数需要Θ\(d\)\\Theta\(\\sqrt\{d\}\)缩放，两者均偏离标准μ\muP设置。
- •我们在多种宽度下对门控Delta网络语言模型进行预训练，结果表明我们的μ\muP表述在AdamW和SGD优化器下均能实现零样本学习率迁移，而标准参数化则无法迁移，从而同时验证了理论推导的正确性及其实用效率。

## 2 相关工作

**高效序列模型** 标准Transformer\(vaswani2017attention\)及其变体\(radford2019language;brown2020language;touvron2023llama\)已成为大规模语言建模的主流架构，但其二次方注意力复杂度限制了其在更大语言模型中的应用。线性注意力\(katharopoulos2020transformers\)以核函数替代softmax，允许将注意力改写为线性RNN，实现O\(1\)O\(1\)每步推理。结构化状态空间模型（SSM）通过引入循环状态空间加以改进：S4\(guefficiently\)引入基于HiPPO\(gu2020hippo\)的结构化矩阵用于长程序列建模，Mamba\(gu2024mamba\)添加输入选择性状态转移以提升性能，Mamba-2\(dao2024transformers\)通过状态空间对偶性将SSM与结构化矩阵注意力统一。其他值得关注的架构包括RetNet\(sun2023retentive\)、RWKV\(peng2023rwkv\)、门控线性注意力\(yang2024gla\)、HGRN\(qin2023hgrn\)及其扩展HGRN2\(qin2024hgrn2\)。最近，大量模型考虑应用delta规则\(widrow1960adaptive\)，即减去预测误差而非累积外积。这一思路在快权重程序员框架\(schlag2021linear\)中得到了形式化，并在irie2021going中进行了循环扩展。DeltaNet\(yang2024deltanet\)进一步引入了硬件高效的并行训练算法，门控Delta网络\(yang2025gated\)将delta规则状态更新与Mamba-2的数据依赖门控相结合，取得了更优的性能。我们的工作正是聚焦于该架构，并推导其μ\muP表述。

**超参数迁移** 众多研究者探索了加速深度学习模型超参数搜索的方法\(snoek2012practical;snoek2015scalable;jamieson2016non;akiba2019optuna\)，也有研究探索了在不同任务或数据集间迁移学习的方法\(horvath2021hyperparameter;perrone2018scalable;yogatama2014efficient\)。此外，在标准参数化（SP，如Xavier初始化\(glorot2010understanding\)和Kaiming初始化\(he2015delving\)）的基础上，yang2020feature基于abc参数化框架提出了最大更新参数化（μ\muP），统一了SP、神经切线核（NTK）\(jacot2018neural\)和均场参数化\(chizat2018global;mei2018mean;sirignano2020mean;rotskoff2022trainability\)等先前的参数化方法。它支持可推广至无限宽度条件的特征学习。基于μ\muP，yang2022tensor提出了μ\muTransfer，可将超参数从较小的代理模型零样本迁移至大型模型，并将其推广至不同架构和优化器\(yang2023tensor\)，如SGD、Adagrad\(duchi2011adaptive\)和Adam\(adam\)。此后，他们还从谱范数角度重新表述了μ\muP\(yang2023spectral\)。近年来，许多研究者尝试进一步将μ\muP推广至其他领域，或成功利用μ\muP扩展LLM\(blakeu2025;meta2024llama4;haas2024effective;dey2024sparse;hajjar2024training;team2025longcat\)。

然而，如何对这些模型进行适当参数化以实现规模化特征学习的问题仍鲜有关注。核心挑战在于原始μ\muP设计无法直接应用于具有循环状态转移和结构化矩阵运算的架构。据我们所知，正式探讨此类模型μ\muP风格参数化的唯一工作是vankadara2024feature，该工作研究了Mamba等结构化SSM的缩放行为。其分析揭示，原始μ\muP和谱缩放条件均无法支持SSM中的特征学习，并推导出恢复特征学习的SSM缩放规则。然而，门控Delta网络的参数化与对角SSM存在很大差异，因为其状态通过外积delta规则而非具有矩阵值隐状态的标量递推来更新。据我们所知，本工作是首个为门控Delta网络推导并验证μ\muP一致参数化的工作。

## 3 预备知识

### 3\.1 门控Delta网络

门控Delta网络由yang2025gated提出，是基于Mamba 2架构\(dao2024transformers\)的线性Transformer\(katharopoulos2020transformers\)变体。对于类似原始Transformer的查询、键和值向量\\qbt,\\kbt\\qb\_\{t\},\\kb\_\{t\}和\\vbt\\vb\_\{t\}，潜在状态的更新规则如下所示：

\\Sbbt=\\Sbbt−1\(αt\(\\Ib−βt\\kbt\\kbt⊤\)\)\+βt\\vbt\\kbt⊤,\\displaystyle\\Sbb\_\{t\}=\\Sbb\_\{t\-1\}\(\\alpha\_\{t\}\(\\Ib\-\\beta\_\{t\}\\kb\_\{t\}\\kb\_\{t\}^\{\\top\}\)\)\+\\beta\_\{t\}\\vb\_\{t\}\\kb\_\{t\}^\{\\top\},\(1\)

其中αt∈\(0,1\)\\alpha\_\{t\}\\in\(0,1\)是数据依赖的门控尺度，βt∈\(0,1\)\\beta\_\{t\}\\in\(0,1\)是时刻tt当前输入的"写入强度"\(widrow1960adaptive;schlag2021linear\)。输出即为潜在状态在查询上的直接读出：

\\obt=\\Sbbt\\qbt\.\\displaystyle\\ob\_\{t\}=\\Sbb\_\{t\}\\qb\_\{t\}\.~\(2\)

与Transformer不同，门控Delta网络在查询、键和值投影之后添加了短卷积，并跟随一个SiLU激活层。此外，查询和键设有L2归一化层，输出投影前也设有RMSNorm层以稳定训练。正如原论文所讨论的，这些归一化层对门控Delta网络的性能至关重要。

### 3\.2 μ\muP理论

在深度学习中，模型通常通过增大隐藏维度或宽度dd来扩展规模。在标准参数化（SP）下，包括He\(he2015delving\)或Xavier\(glorot2010understanding\)初始化，隐藏层权重通常从N\(0,σ2/d\)\\mathcal\{N\}\(0,\\sigma^\{2\}/d\)中采样初始化，并使用统一的学习率η\\eta优化所有层。然而，当dd趋于无穷时，SP面临根本性的局限。若学习率保持不变，网络的激活值和梯度将发散。为防止这种不稳定，η\\eta必须以O\(1/d\)\\mathcal\{O\}\(1/d\)的速度缩小，这会将网络推入神经切线核（NTK）或"惰性训练"机制yang2020feature，使中间表示（特征）几乎不从初始化状态演变，即网络无法进行真正的特征学习。

为解决无限宽度极限下稳定性与特征学习之间的权衡，yang2020feature利用Tensor Programs框架提出了**最大更新参数化**（μ\muP）。μ\muP提供了以宽度dd为函数的权重初始化和学习率缩放的严格配置（有时需要在权重上添加与宽度相关的乘子；AdamW和SGD配置请参见表2 (https://arxiv.org/html/2606.04048#A2.T2)和表1 (https://arxiv.org/html/2606.04048#S5.T1)），以确保特征学习。在此设置下，每一层的特征更新在模型扩展至无限宽度时保持有界且非消失（即Δh=Θ\(1\)\\Delta h=\\Theta\(1\)）。为进一步说明这一点，首先引入坐标尺度的定义：

###### 定义 3\.1\.

向量v∈\\RRdv\\in\\RR^\{d\}具有Θ\(da\)\\Theta\(d^\{a\}\)尺度坐标，若‖v‖2/d=Θ\(d2a\)\\\|v\\\|^\{2\}/d=\\Theta\(d^\{2a\}\)，即当d→∞d\\to\\infty时，vv的每个元素的方差为Θ\(d2a\)\\Theta\(d^\{2a\}\)。

当dd较大时，所研究向量的坐标被视为近似独立同分布的高斯变量。基于上述定义，μ\muP理论提出了三个期望条件：第一，每个（预）激活向量应具有Θ\(1\)\\Theta\(1\)尺度坐标；第二，网络的输出应为O\(1\)O\(1\)；第三，所有参数应在不导致发散的前提下尽可能地被更新。基于这些期望条件和特征学习假设，可以推导出若干结论。例如，在使用SGD优化器时，对隐状态的梯度具有Θ\(1/d\)\\Theta\(1/d\)坐标尺度。

## 4 门控Delta网络的μ\muP前向分析

在本节中，我们将回顾门控Delta网络的架构，并推导该架构的缩放定律。我们通过在前向传播和门控机制中传播坐标尺度估计，推导出门控Delta网络的最大更新参数化（μ\muP）条件，最后给出对AdamW优化器的意义。

#### 符号与基本假设。

沿用yang2022tensor的记号，我们称向量\\zb∈\\RRd\\zb\\in\\RR^\{d\}具有Θ\(1\)\\Theta\(1\)坐标尺度，若‖\\zb‖2=Θ\(d\)\\\|\\zb\\\|\_\{2\}=\\Theta\(\\sqrt\{d\}\)，即每个坐标的量级为Θ\(1\)\\Theta\(1\)。等价地，\\zb\\zb的逐坐标方差为Θ\(1\)\\Theta\(1\)。对于矩阵\\Ab∈\\RRd×d\\Ab\\in\\RR^\{d\\times d\}，若每个元素的量级为Θ\(c\)\\Theta\(c\)，则称其具有Θ\(c\)\\Theta\(c\)坐标尺度。我们在全文中假设隐状态\\xbt∈\\RRd\\xb\_\{t\}\\in\\RR^\{d\}满足μ\muP特征学习条件，即

‖\\xbt‖2=Θ\(d\),‖Δ\\xbt‖2=Θ\(d\),\\displaystyle\\\|\\xb\_\{t\}\\\|\_\{2\}=\\Theta\(\\sqrt\{d\}\),\\qquad\\\|\\Delta\\xb\_\{t\}\\\|\_\{2\}=\\Theta\(\\sqrt\{d\}\),

使得\\xbt\\xb\_\{t\}具有Θ\(1\)\\Theta\(1\)坐标尺度，且其更新量为同阶。为了单独分析参数化的影响，我们暂时忽略SiLU激活（见下文注释4\.2 (https://arxiv.org/html/2606.04048#S4.Thmtheorem2)）。

### 4\.1 投影特征的坐标尺度

设\\qb~t=ShortConv\(\\Wbq\\xbt\)\\tilde\{\\qb\}\_\{t\}=\\text\{ShortConv\}\(\\Wb\_\{q\}\\,\\xb\_\{t\}\)，\\kb~t

解锁门控Delta网络在大规模训练中的特征学习能力

相似文章

@maximelabonne：量化超参数迁移与嵌入层学习率的重要性（第一张截图，Kalra 和 Ba…

GQA-{\mu}P: 群组查询注意力的最大参数化更新

LLM持续预训练中最佳超参数的可预测缩放规律

统一神经缩放定律

@jiqizhixin: NVIDIA 新成果！你可以在不扰乱模型已有知识的前提下编辑其压缩记忆！推出 Gated DeltaNe…

提交意见反馈