奇异性分布的稳定性:语言模型预训练两阶段动力学的谱视角

arXiv cs.LG 论文

摘要

本文在大规模语言模型预训练中发现了一种称为奇异性分布稳定性(SoSD)的谱现象,其中奇异值谱在早期就趋于稳定,而参数仍在持续演化。作者证明,这种稳定标志着训练进入慢速下降阶段,并分析了WSD和Muon等训练策略如何影响这一行为。

arXiv:2605.26489v1 公告类型:新 摘要:大型语言模型的预训练通常表现出两阶段轨迹:初始快速损失下降后跟长期的缓慢改善。我们识别出一个潜在的谱现象——奇异性分布稳定性(SoSD),其中迹归一化的奇异值谱在早期就稳定下来,即使参数矩阵仍在继续演化。我们证明了SoSD与慢速下降阶段之间的同步性在多种架构(GPT-2、LLaMA)和设置中广泛存在,包括各种调度策略(Step-wise、WSD、Cosine Decay)、权重衰减和优化器(AdamW、Muon)。通过分析简化Transformer,我们证明,增长权重范数必然导致早期SoSD阈值的出现,在此之后,损失下降速率理论上受限于奇异性分布的变化。我们进一步通过WSD和Muon等策略调节SoSD尺度的能力来解释它们,为理解高效预训练动态提供了谱视角。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:11

# 语言模型预训练双相动力学的谱视角:奇异分布的稳定性

来源:https://arxiv.org/html/2605.26489

## 奇异分布的稳定性:语言模型预训练双相动力学的谱视角

###### 摘要

大型语言模型预训练通常呈现双相轨迹:初始阶段损失快速下降,随后进入漫长的缓慢改进期。我们发现了一个潜在的谱现象——奇异分布稳定性(SoSD),即迹归一化奇异值谱在参数矩阵继续演化时提前进入稳定状态。我们证明,SoSD 与慢速下降阶段之间的同步性广泛存在于不同架构(GPT-2、LLaMA)和设置中,包括各种学习率调度(Step-wise、WSD、Cosine Decay)、权重衰减和优化器(AdamW、Muon)。通过分析一个简化版 Transformer,我们证明权值范数的增长必然导致早期 SoSD 阈值出现,此后损失下降速率理论上受限于奇异分布的变化。我们进一步解释了 WSD 和 Muon 等策略如何通过调节 SoSD 尺度发挥作用,为理解高效预训练动力学提供了一个谱视角。

机器学习,ICML

## 1 引言

大语言模型(LLMs)已成为现代人工智能的基石(Brown et al., 2020 (https://arxiv.org/html/2605.26489#bib.bib2);Achiam et al., 2023 (https://arxiv.org/html/2605.26489#bib.bib3)),通过利用 Transformer 架构(Vaswani et al., 2017 (https://arxiv.org/html/2605.26489#bib.bib1))作为其基础骨干,实现了前所未有的可扩展性和泛化能力。然而,控制其预训练的优化动力学仍然神秘,尤其是关于训练过程的时间演化。

在主要技术报告(Touvron et al., 2023 (https://arxiv.org/html/2605.26489#bib.bib6);Chowdhery et al., 2023 (https://arxiv.org/html/2605.26489#bib.bib7);Zhang et al., 2022 (https://arxiv.org/html/2605.26489#bib.bib8))中记录的一个普遍观察结果是训练损失的典型双相轨迹:初始阶段的急剧下降,随后是长期的渐近、重尾改进。虽然这种“快-慢”双相行为在经验上被认为是大型语言模型(LLMs)的标准收敛模式,但驱动这一转变的潜在理论机制,以及具体是什么机械因素决定了慢速下降阶段的开始,仍然基本上未被探索。

参见图注

图 1:GPT-2 Small 上的奇异分布稳定性(SoSD)现象识别。(a)当前状态与最终状态之间余弦相似度的演化。奇异分布(虚线)比参数矩阵本身(实线)显著更早稳定。(b)验证损失(上)与奇异分布变化(SD Variation,下)之间的同步性。红色垂直虚线标示奇异值矩阵近似稳定的步骤,与进入慢速下降阶段的过渡点重合。

现有分析通常依赖于受限的任务形式,如上下文学习(Olsson et al., 2022 (https://arxiv.org/html/2605.26489#bib.bib10);Bietti et al., 2023 (https://arxiv.org/html/2605.26489#bib.bib12);Zhang et al., 2025a (https://arxiv.org/html/2605.26489#bib.bib47))或线性回归(Zhang et al., 2024 (https://arxiv.org/html/2605.26489#bib.bib11)),以推导易处理的收敛界。最近,焦点已转向 Transformer 优化更细粒度的多阶段解释(Zhou et al., 2022 (https://arxiv.org/html/2605.26489#bib.bib46);Yao et al., 2025 (https://arxiv.org/html/2605.26489#bib.bib45);Zhang et al., 2025b (https://arxiv.org/html/2605.26489#bib.bib44))。值得注意的是,关于凝聚到秩坍塌的最新工作(Chen and Luo, 2025 (https://arxiv.org/html/2605.26489#bib.bib9))在线性化注意力上采用梯度流框架,识别出从小初始化下参数凝聚到渐近秩坍塌的两阶段转变。受这些见解的启发,我们建议将视角转向谱演化的时间动力学。关键的是,这一视角使我们能够研究奇异分布稳定性与损失函数宏观饱和之间的机械同步性,回答一个基本问题:

什么内在机制控制着从快速学习到慢速饱和的转变,参数谱演化如何决定这一阶段转变?

为了研究这一转变的机制,我们分析了整个预训练过程中参数矩阵的谱动力学。我们识别出一个称为奇异分布稳定性(SoSD)的现象,其中归一化奇异值谱比参数矩阵本身显著更早稳定(图1 (https://arxiv.org/html/2605.26489#S1.F1)(a)),并且这种稳定性的起始与验证损失进入平台期一致,表现出与优化饱和的紧密同步(图1 (https://arxiv.org/html/2605.26489#S1.F1)(b))。我们的分析揭示了这种谱稳定化紧密地表征了从快速到慢速下降阶段的转变。我们的具体贡献如下:

1. 1.SoSD 的识别:我们识别出奇异分布稳定性(SoSD)现象,观察到奇异值分布比参数矩阵的稳定性显著更早进入稳定状态(图1 (https://arxiv.org/html/2605.26489#S1.F1)(a))。在 GPT-2 和 LLaMA 系列中,我们报告了 SoSD 的起始与损失函数进入慢速下降阶段同步(图1 (https://arxiv.org/html/2605.26489#S1.F1)(b))。
2. 2.SoSD 的理论分析:我们建立了一个理论框架以阐明 SoSD 的机制。我们首先证明了 SoSD 的出现(定理4.5 (https://arxiv.org/html/2605.26489#S4.Thmtheorem5))依赖于参数的非退化性和梯度有界性(假设4.3 (https://arxiv.org/html/2605.26489#S4.Thmtheorem3))。在此基础上,我们加入光滑性和间隔条件(假设4.7 (https://arxiv.org/html/2605.26489#S4.Thmtheorem7))以证明损失下降与奇异分布变化动态耦合:虽然大的变化与快速的损失衰减相关,但 SoSD 的起始严格限制了后续的损失减少(定理4.9 (https://arxiv.org/html/2605.26489#S4.Thmtheorem9))。
3. 3.通过 SoSD 解释预训练策略:我们通过 SoSD 动力学及其导出的稳定性界 ε∝η/‖W‖(其中 η 和 ‖W‖ 分别表示学习率和参数范数)来解释预训练策略。我们证明了学习率调度(逐步衰减和连续退火)通过收紧这一界来促进优化,从而缓解 SoSD 相关的约束,以实现进一步的损失最小化。相反,我们发现权重衰减通过抑制权值范数的增长来促进损失下降;这一机制放松了稳定性约束,从而允许对奇异分布进行更大的更新。最后,我们使用 Muon 优化器验证了 SoSD,观察到 SoSD 现象在其优越的训练效率下仍然存在。

#### 利益冲突披露。

作者声明本工作无相关财务利益冲突。

参见图注

图 2:预训练过程中当前参数(t)与最终状态(T)之间余弦相似度的演化。图表分析了四个模型中 cos⟨W_t, W_T⟩ 和 cos⟨Σ_t, Σ_T⟩: (a) GPT-2 Small, (b) GPT-2 Medium, (c) LLaMA 0.5B, 和 (d) LLaMA 2B。实线表示权重矩阵 W,虚线表示奇异值矩阵 Σ。颜色表示不同的投影层。红色垂直虚线标示奇异值矩阵近似稳定的步骤。

## 2 相关工作

#### Transformer 的训练动力学

理解 Transformer 的优化轨迹仍然是一个艰巨的挑战,因为非凸目标与大规模参数之间的相互作用。早期的理论工作主要剖析简化的单层注意力机制的动力学。例如,Tian et al. (2023 (https://arxiv.org/html/2605.26489#bib.bib28)) 和 Snell et al. (2021 (https://arxiv.org/html/2605.26489#bib.bib16)) 刻画了梯度下降如何驱动注意力头捕获共现模式或模仿 Seq2Seq 算法,而 Li et al. (2023 (https://arxiv.org/html/2605.26489#bib.bib15)) 证明了在类似 BERT 的框架中主题模型的可学习性(Devlin et al., 2019 (https://arxiv.org/html/2605.26489#bib.bib70))。在这些基础设置上,近期研究已将动力学分析扩展到更复杂的分布。例如,详细描述了双混合线性分类中的阶段性学习阶段(Yang et al., 2025 (https://arxiv.org/html/2605.26489#bib.bib60))。类似地,在逻辑推理领域,已有理论证明表明注意力和线性层如何通过思维链演化为解决常规语言任务(Huang et al., 2025 (https://arxiv.org/html/2605.26489#bib.bib61))。最近,焦点转向将上下文学习(ICL)作为理解动力学的测试平台。大量工作采用线性回归设置来理论分析 Transformer 如何推理过程中实现类似梯度下降的算法(Akyürek et al., 2022 (https://arxiv.org/html/2605.26489#bib.bib20);Von Oswald et al., 2023 (https://arxiv.org/html/2605.26489#bib.bib21);Mahankali et al., 2023 (https://arxiv.org/html/2605.26489#bib.bib17);Zhang et al., 2024 (https://arxiv.org/html/2605.26489#bib.bib11))。完善这一视角,近期研究证明 Transformer 可以超越简单算法,学习潜在表示,隐式执行岭回归以泛化到未见任务(Yang et al., 2024 (https://arxiv.org/html/2605.26489#bib.bib62))。与此并行,机械可解释性研究追踪了训练过程中特定结构组件的出现,如归纳头(Olsson et al., 2022 (https://arxiv.org/html/2605.26489#bib.bib10);Reddy, 2023 (https://arxiv.org/html/2605.26489#bib.bib24))和记忆检索电路(Bietti et al., 2023 (https://arxiv.org/html/2605.26489#bib.bib12);Cabannes et al., 2024 (https://arxiv.org/html/2605.26489#bib.bib26))。作为这些对特定能力和电路的细粒度分析的补充,我们的工作旨在表征通用预训练场景中损失景观的宏观时间演化。我们希望桥接参数谱演化与损失饱和(双相转变)全局现象之间的机械联系,提供一个统一的谱视角,支配标准语言模型的训练效率。

#### 隐式正则化与结构动力学

Transformer 优化的理论探究广泛刻画了基于梯度的学习如何在权重矩阵中诱导特定结构属性。一个核心主题是低复杂度解决方案的出现,著名的“秩坍塌”现象(Dong et al., 2021 (https://arxiv.org/html/2605.26489#bib.bib14)),其中参数的有效秩随时间减小。这一现象被广泛解释为一种隐式正则化形式,即优化器即使在没有显式约束的情况下自然偏爱低秩或最大间隔解决方案(Gunasekar et al., 2017 (https://arxiv.org/html/2605.26489#bib.bib32);Soudry et al., 2018 (https://arxiv.org/html/2605.26489#bib.bib48);Arora et al., 2019 (https://arxiv.org/html/2605.26489#bib.bib31);Neyshabur, 2017 (https://arxiv.org/html/2605.26489#bib.bib51))。支持这一观点,近期关于下一词元预测的非渐近分析建立了前馈层和注意力层都以线性速率收敛到这类最大间隔解决方案(Huang et al., 2024 (https://arxiv.org/html/2605.26489#bib.bib63))。作为这一结构视角的补充,优化器锐度与稳定性之间的动态相互作用已通过“稳定边缘”框架(Cohen et al., 2021 (https://arxiv.org/html/2605.26489#bib.bib33);Ahn et al., 2022 (https://arxiv.org/html/2605.26489#bib.bib49);Damian et al., 2022 (https://arxiv.org/html/2605.26489#bib.bib50))进行了分析。然而,低秩结构的趋势与预训练过程中单调范数增长的经验观察之间存在张力(Merrill et al., 2021 (https://arxiv.org/html/2605.26489#bib.bib34))。梯度流理论试图通过将训练建模为增量秩累积或平衡流的过程来调和这些方面(Saxe et al., 2019 (https://arxiv.org/html/2605.26489#bib.bib35);Gidel et al., 2019 (https://arxiv.org/html/2605.26489#bib.bib36))。最相关的是,Chen 和 Luo (2025 (https://arxiv.org/html/2605.26489#bib.bib9)) 最近在线性化 Transformer 上应用了梯度流框架,识别出从参数凝聚到渐近秩坍塌的转变。在这些基础见解上,我们将分析扩展到标准注意力的谱动力学。我们将奇异分布稳定性(SoSD)识别为不是最终的低秩状态,而是一个早期出现的动力学瓶颈。这一视角为实际预训中观察到的“快-慢”双相饱和提供了机械基础。

## 3 奇异分布中的稳定性现象

### 3.1 实验设置

模型与数据集。我们在两种广泛使用的仅解码器模型系列上进行预训练实验:

- • GPT-2 on FineWeb: 我们使用高度优化的 nano-gpt 基准训练配方 ¹ 在数据集上训练 GPT-2 Small (124M) 和 Medium (355M) 模型,为中小规模语言建模建立严格标准 (Radford et al., 2019 (https://arxiv.org/html/2605.26489#bib.bib57))。
- • LLaMA on C4: 我们在 Colossal Clean Crawled Corpus (C4) 上训练 0.5B 和 2B 参数的 LLaMA 模型,以评估架构的可扩展性 (Touvron et al., 2023 (https://arxiv.org/html/2605.26489#bib.bib6))。

优化设置。所有模型均使用 AdamW 优化器训练,超参数 β₁=0.9 和 β₂=0.95,并额外使用 Muon 优化器对 GPT-2 Small 进行比较运行。我们采用了多种学习率调度(GPT-2 使用 Step Decay 和 Warmup-Stable-Decay,LLaMA 使用 Cosine decay),并在 LLaMA 0.5B 模型上进行了权重衰减的消融实验(Loshchilov and Hutter, 2017 (https://arxiv.org/html/2605.26489#bib.bib65))。完整细节见附录 D (https://arxiv.org/html/2605.26489#A4)。

### 3.2 奇异分布稳定性的出现

我们通过监测 GPT-2 和 LLaMA 架构中参数矩阵 W 及其相关奇异值谱 Σ 相对于最终训练状态 (T) 的余弦相似度,研究了它们的收敛轨迹。

相似文章

UniSD:面向大型语言模型的统一自蒸馏框架

Hugging Face Daily Papers

本文提出了 UniSD,这是一种用于适应大型语言模型的统一自蒸馏框架,整合了监督可靠性、表征对齐和训练稳定性的机制。实验结果表明,UniSD 在多个基准测试中均优于基础模型和现有基线方法。

LM预训练的泛化动态(阅读时间17分钟)

TLDR AI

本文揭示,在预训练过程中,语言模型会频繁且突然地在模式匹配与泛化行为之间切换,这种现象被称为“模式跳跃”(mode-hopping),并提出了一个用于研究该现象的小型评估套件。

Muon优化器的谱缩放定律

arXiv cs.LG

本文首次系统研究了大语言模型训练过程中Muon优化器动量矩阵奇异值谱的行为规律,发现了在不同模型规模(77M至2.8B参数)下清晰的幂律缩放关系。研究结果为从业者提供了有理论依据、感知层级的Newton–Schulz迭代配置指南,在前沿规模下无需额外计算即可保持正交归一化质量。

大语言模型顺序后训练中的表征坍塌

arXiv cs.LG

本文研究了大型语言模型在顺序后训练中的表征坍塌现象,表明重复的适应阶段会压缩内部表征,降低可塑性和域外泛化能力。作者提出了轻量级干预措施,在不牺牲行为增益的前提下保留未来的可学习性。