小初始化对大语言模型至关重要

arXiv cs.AI 论文

摘要

本文表明,降低参数初始化规模能持续改善大型语言模型的预训练,且在推理密集型任务上收益最大。它发现了一种平衡推理与训练的关键初始化,并提出一个简单的γ-初始化规则。

arXiv:2606.17945v1 Announce Type: new 摘要:大型语言模型提供了一个可处理的系统,用于探究智能本身如何涌现,而不仅仅是LLM如何被工程化。尽管进展通常归因于规模、数据和架构,但我们表明参数初始化是训练中基因般的决定因素,特别是对模型能力而言。降低初始化规模能持续改善预训练,且在推理密集型任务上收益最大。我们识别出两种广泛使用的经验设置,它们限制了小初始化的优势,并展示了如何放松这些设置以恢复有利的缩放行为。我们进一步发现了一种平衡推理和训练的关键初始化。从机制上看,小初始化驱动了一条独特的发育轨迹:参数首先凝聚为低复杂度结构,随后扩展为更丰富的表示,这具体体现了压缩即智能的 idea。词元层级分析表明,收益集中在非平凡、上下文约束的预测上,而非均匀作用于所有词元。这些结果催生了一个简单的γ-初始化规则:将初始化范围作为显式旋钮暴露出来,并默认使用小初始化——这是一种几乎零成本的干预,能改善预训练并加强跨模型规模的推理能力。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:40

# 小初始化对大语言模型至关重要
来源:https://arxiv.org/html/2606.17945 \\equalcont 这些作者对本文贡献相同。 \\equalcont 这些作者对本文贡献相同。 [1,2]\\fnmZhi-Qin John\\surXu 1]\\orgdiv数学科学学院,\\orgname上海交通大学,\\orgaddress\\city上海,\\postcode200240,\\country中国 2]\\orgdiv自然科学研究院,\\orgname上海交通大学,\\orgaddress\\city上海,\\postcode200240,\\country中国 3]\\orgnameMemTensor(上海)科技有限公司 4]\\orgname高级算法研究所,\\orgaddress\\city上海,\\country中国

###### 摘要

大语言模型为探究智能本身如何涌现而不仅仅是工程化地构建大语言模型提供了可处理的系统。尽管进展通常归因于规模、数据和架构,但我们表明参数初始化是训练(尤其是模型能力)的一个类似基因的决定因素。减小初始化规模持续改善预训练,在需要推理的任务上收益最大。我们识别了两种广泛使用的实证设置,它们抑制了小初始化的优势,并展示了如何放宽这些设置以恢复有利的缩放效果。我们进一步揭示了一个关键的初始化点,平衡了推理和训练。从机制上看,小初始化驱动了一条独特的发展轨迹:参数首先凝缩成低复杂度结构,随后扩展为更丰富的表示,这为压缩即智能这一观点提供了具体形式。词元级别的分析显示,收益并非均匀分布在所有词元上,而是集中在非平凡、受上下文约束的预测上。这些结果提出了一个简单的γ\\gamma-初始化规则:将初始化范围作为一个显式旋钮,并默认使用小初始化——这是一种几乎零成本的干预,能够改善预训练并跨模型规模增强推理能力。

## 1 引言

除了作为工程系统的实用角色外,大语言模型还提供了一个实验窗口,让我们观察智能如何从规模、数据、优化和架构中涌现。它们的最新进展主要来自增加规模[brown2020language,kaplan2020scaling]、改进数据和优化[NEURIPS2022_c1e2faff,hu2022lora,liu2024sophia,guo2025deepseek]或修改架构[vaswani2017attention,devlin2019bert,fedus2022switch,gu2023mamba]。然而,参数初始化仍然是支撑现代深度学习的关键设计选择[lecun2015deep]。曾经被认为已通过手工设计的启发式方法(如Xavier初始化[glorot2010understanding]、LeCun初始化[lecun2012efficient]和Kaiming初始化[he2015delving])得到解决,但在大模型时代,它重新浮出水面,因为量身定制的方案现在需要昂贵的试错。在这项工作中,我们展示了参数初始化的规模深刻影响大语言模型的学习过程,作为压缩本质上体现智能这一观点的具体体现。大初始化使网络行为类似于核方法[jacot2018neural,chizat2019lazy,woodworth2020kernel],而小初始化则将其驱动到非线性特征学习或凝缩区域,其中层内的权重向量首先沿少数共享方向对齐,然后发展出更丰富的结构[luo2021phase,zhou2022towards,kunin2024get]。小初始化已被证明能使模型偏向推理并改善泛化,尽管主要是在简化的架构和合成任务上[zhang2024initialization,yao2025analysis,zhang2025complexity]。这些好处是否能延续到真实的大语言模型预训练,并随着模型规模的扩大而持续,仍然在很大程度上未被探索。

这里我们系统地研究小初始化是否、何时以及为何改善大语言模型性能。我们将每个权重矩阵参数化为 \(W_{ij} \sim \mathcal{N}(0,\sigma^2), \sigma = d_{\mathrm{in}}^{-\gamma}\),其中初始化速率 \(\gamma=1/2\) 恢复标准尺度(如Xavier类尺度[glorot2010understanding]),较大的 \(\gamma\) 产生较小的初始化。在一系列 \(\gamma\) 值下训练大语言模型,我们发现简单地降低初始化尺度可以降低预训练损失,尽管这种优势随着模型变大而减弱。这种减弱并非小初始化的固有限制,而是特定架构组件的结果:层归一化[ba2016layer]通过其常数 \(\varepsilon\) 掩盖了尺度差异,同时小初始化加剧了注意力汇聚[xiao2024streamingllm]。降低 \(\varepsilon\) 并引入门控注意力[qiu2026gated]可以释放其潜在优势,在模型规模上产生显著更好的缩放规律。我们的结果进一步表明,恒等路径与残差路径之间的均衡(在 \(\gamma=1\) 时实现)能带来最佳性能。最后,我们发现小初始化模型遵循一条从低复杂度到高复杂度的轨迹:其权重矩阵首先凝缩成低维结构,随后扩展为更丰富的空间,这是一种凝缩现象[xu2025overview],从多层感知机到处于凝缩区域的Transformer模型都有体现。对损失的词元级别分析进一步表明,收益并非均匀分布在词元上,而是集中在一部分非平凡词元上。这些结论共同确立了初始化规模作为大语言模型的一个实用且机制性的设计轴:小初始化显著改善预训练,\(\gamma=1\) 标志着关键平衡点,由此产生的训练动力学遵循清晰的凝缩模式。更广泛地,我们主张将 \(\gamma\) 作为一个显式的初始化参数,并在主流深度学习框架中采用 \(\gamma\)-初始化作为内置初始化器,默认使用 \(\gamma=1\)。

## 2 结果

### 2.1 为什么小初始化难以扩展,以及如何修复

我们首先检查减少初始化尺度是否有利于大语言模型预训练,在标准尺度 \(\gamma=0.5\) 和较小尺度 \(\gamma=1\) 下训练不同规模的模型。小初始化在模型的所有尺度上一致降低了验证损失(图1 (https://arxiv.org/html/2606.17945#S2.F1)a,b)。然而,这种收益随着规模扩大而缩小:将 \(\gamma=0.5\) 改为 \(\gamma=1\) 对0.1B模型减少了约0.05的损失,但对1.5B模型仅减少了约0.003。这引出了一个核心问题:为什么小初始化的好处在规模扩大时消失?

见说明图1:(a) 两种初始化尺度 \(\gamma=0.5\) 和 \(\gamma=1\) 下不同模型大小的验证损失。(b) 不同模型尺度下 \(\gamma=0.5\) 与 \(\gamma=1\) 之间的验证损失绝对降低量。(c) 两种不同 \(\varepsilon\) 设置下 RMSNorm 有效缩放因子与 \(\gamma\) 的关系,其中 \(d=2048\)。(d) 在 \(\gamma=1\) 下训练的不同 \(\varepsilon\) 值的1.5B模型训练损失曲线。(e) 不同初始化尺度 \(\gamma\) 和 RMSNorm \(\varepsilon\) 组合下的最终验证损失比较。(f) 1.5B模型中不同初始化尺度下的逐层注意力汇聚得分。(g) 在 \(\gamma=1\) 下使用和不使用门控注意力时的逐层注意力汇聚得分。(h) 不同初始化尺度下使用和不使用门控注意力训练的模型的最终验证损失比较。

我们表明,这种缩小并不是小初始化的失败,而是抑制其效果的架构组件的结果。我们识别出两个。首先,一旦隐藏状态方差变小,层归一化进入一个由 \(\varepsilon\) 主导的区域,掩盖了尺度差异。其次,小初始化加剧了注意力汇聚,将注意力集中在第一个词元上。移除这两个障碍即可恢复收益,如下所示。

#### 调整 RMSNorm 常数

RMSNorm 对输入 \(\bm{h}\) 进行重新缩放,比例因子与 \((\sigma^2(\bm{h})+\varepsilon)^{-1/2}\) 成正比,其中 \(\sigma^2(\bm{h})=1/d\sum_i^d \bm{h}_i^2\),\(\varepsilon\) 是稳定性常数。小初始化收缩 \(\sigma^2(\bm{h})\),一旦 \(\sigma^2(\bm{h}) \lesssim \varepsilon\),缩放因子就由 \(\varepsilon\) 而非 \(\bm{h}\) 决定;进一步减小尺度不再改变归一化,从而掩盖了小初始化的效果。取 \(\bm{h}_i \sim \mathcal{N}(0,d^{-2\gamma})\),使得 \(\sigma^2(\bm{h}) = d^{-2\gamma}\)。考虑 \(d=2048\),则当 \(\gamma=0.5\) 时 \(\sigma^2(\bm{h})=4.8\times10^{-4}\),当 \(\gamma=1\) 时 \(\sigma^2(\bm{h})=2.4\times10^{-7}\),这远小于常见的 \(\varepsilon=10^{-5}\)。这表明常见的值 \(\varepsilon=10^{-5}\) 会使 \(\gamma>0.6\) 时的因子饱和,而 \(\varepsilon=10^{-12}\) 则能在更广的范围内保持对 \(\gamma\) 的敏感性(图1 (https://arxiv.org/html/2606.17945#S2.F1)c)。这一预测在训练中得到证实。对于 \(\gamma=1\) 的1.5B模型,将 \(\varepsilon\) 从 \(10^{-5}\) 降到 \(10^{-12}\) 显著降低了损失(图1 (https://arxiv.org/html/2606.17945#S2.F1)d, \(\sim 0.038\)),而在 \(\gamma=0.5\) 时同样的降低几乎没有帮助(图1 (https://arxiv.org/html/2606.17945#S2.F1)e, \(\sim 0.001\))。

#### 缓解注意力汇聚

第二个障碍是注意力汇聚,即大语言模型倾向于将不成比例的注意力放在第一个词元上[xiao2024streamingllm,barbero2025why,ICLR2025_f1b04fac,Yu2024unveiling]。通过测量汇聚得分(见 (5))——第一个词元上的平均注意力权重——我们发现小初始化强化了它:在1.5B模型中,\(\gamma=1\) 下的每层平均值比 \(\gamma=0.5\) 下高出约0.11(图1 (https://arxiv.org/html/2606.17945#S2.F1)f)。为了移除它,我们应用门控注意力,它门控每个注意力头的输出[qiu2026gated]。门控在 \(\gamma=1\) 下显著降低了汇聚得分(图1 (https://arxiv.org/html/2606.17945#S2.F1)g),这转化为性能提升:在 \(\gamma=0.5\) 时,门控几乎没有降低损失(\(\sim 0.004\)),而在 \(\gamma=1\) 时它产生了更大的下降(图1 (https://arxiv.org/html/2606.17945#S2.F1)h, \(\sim 0.047\))。因此,缓解注意力汇聚显著增强了小初始化的效果。需要注意的是,这个消融实验是在 \(\varepsilon=10^{-12}\) 下进行的。

### 2.2 释放小初始化的优势

一旦两个架构障碍被移除,小初始化的优势就完全显现出来。结合调整——将 \(\varepsilon\) 降到 \(10^{-12}\) 并加入门控注意力——在 \(\gamma=0.5\) 时损失基本不变,但在 \(\gamma=1\) 时显著放大了收益,并且这种收益随着模型规模增大而持续(图2 (https://arxiv.org/html/2606.17945#S2.F2)a)。比较表明,小初始化可以改善有效模型大小约 \(44\%\)。因此,这些调整仅在小初始化下才有意义:它们本身并不能改善训练,但能释放小初始化原本被隐藏的好处。

这一优势延伸到下游能力。在带调整的1.5B模型上,\(\gamma=1\) 在涵盖知识、常识推理和数学的基准测试中优于 \(\gamma=0.5\)(表1 (https://arxiv.org/html/2606.17945#S2.T1)),在 TriviaQA、HellaSwag、GSM8K 和 MATH500 上取得了超过 \(4\%\) 的绝对提升。因此,在架构适当支持下的小初始化既能带来更低的损失,也能带来更强的任务性能。

表1:1.5B模型在标准初始化(\(\gamma=0.5\))和小初始化(\(\gamma=1\))下的评估结果。增益列报告了 \(\gamma=1\) 相对于 \(\gamma=0.5\) 的绝对改进。小于4的增益用红色显示,大于或等于4的增益用绿色显示。

### 2.3 推广到混合专家模型

为了检验效果是否特定于稠密模型,我们在混合专家模型上重复实验,采用两种配置:总参数1.5B(活跃参数0.25B)和总参数3B(活跃参数0.5B),每种都在 \(\gamma=0.5\) 和 \(\gamma=1\) 下训练。MoE 的结果与稠密情况类似(图2 (https://arxiv.org/html/2606.17945#S2.F2)b,c):在较小规模下小初始化明显降低了损失;在较大规模下,在标准架构下收益减弱;而将 \(\varepsilon\) 降至 \(10^{-12}\) 并结合门控注意力可以恢复并放大收益。因此,限制及其补救措施均可迁移,将小初始化确立为跨架构的一种广泛有用的策略。

见说明图2:(a) 不同模型大小下 \(\gamma=0.5\) 和 \(\gamma=1\) 的验证损失,带或不带架构调整。(b) 不带调整的 MoE 模型在 \(\gamma=0.5\) 和 \(\gamma=1\) 下的验证损失。(c) 带调整的 MoE 模型在 \(\gamma=0.5\) 和 \(\gamma=1\) 下的验证损失。

### 2.4 初始化应该小到什么程度?

鉴于这些收益,尺度是否应该尽可能小,即 \(\gamma\) 任意大?我们发现不应该,原因在于 Transformer 的残差结构。每一层都会向恒等路径添加一个残差更新;当权重太小时,这些更新会消失,恒等路径占主导,使得网络在早期训练中无法变换其输入。有用的初始化必须让残差更新与恒等路径相当。

这一平衡可以精确表达。对于一个 \(L\) 层的预归一化 Transformer,最终隐藏状态为 \(\bm{h}_L\),嵌入输入为 \(\bm{e}\),我们将残差流定义为 \(\bm{h}_L - \bm{e}\)。在小初始化下,其相对尺度满足 \(\|\bm{h}_L - \bm{e}\|_2 / \|\bm{e}\|_2 \asymp d^{1-\gamma}\)(推导见附录A (https://arxiv.org/html/2606.17945#A1))。因此,残差流在 \(\gamma<1\) 时主导嵌入,在 \(\gamma=1\) 时与嵌入相当,在 \(\gamma>1\) 时变得可忽略(此时网络初始化为接近恒等映射)。规模及其后果均在实验中得到证实:测得的范数比遵循 \(d^{1-\gamma}\)(图3 (https://arxiv.org/html/2606.17945#S2.F3)a),并且预训练损失从 \(\gamma=0.5\) 到 \(\gamma=1\) 得到改善,但在超过 \(\gamma=1\) 后恶化(图3 (https://arxiv.org/html/2606.17945#S2.F3)b)。因此,最优尺度位于平衡点 \(\gamma=1\),既足够小以诱导凝缩,又足够大以保持网络的可训练性。

见说明图3:(a) 相对残差流强度 \(\|\bm{h}_L - \bm{e}\|_2 / \|\bm{e}\|_2\) 作为初始化尺度 \(\gamma\) 的函数。(b) 最终验证损失作为初始化尺度 \(\gamma\) 的函数。

### 2.5 收益来源:词元级别分析

验证损失和基准分数表明小初始化平均有帮助,但未显示改进的来源。因此我们询问收益是均匀分布在词元上还是集中在特定词元上。对于每个上下文 \(x_1 \dots\)

相似文章

神经语言模型的缩放规律

OpenAI Blog

基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。

大型学习模型中增强且高效的推理

arXiv cs.AI

本文提出了一种改进大型语言模型推理的方法,通过重新编码数据以显式表示关系,实现高效且原则性的推理,并具备关系规则的多项式时间可学习性,从而解决幻觉问题并支持跨多次调用的可靠推理。

参数对齐缓解多语言专家语言模型中的灾难性遗忘

arXiv cs.CL

本文研究了持续预训练过程中多语言专家语言模型面临的灾难性遗忘问题,并提出了五种参数对齐策略(硬层冻结、软正则化、事后权重还原和模型合并),以在32种训练语言中最小化语言习得成本的同时减轻遗忘。