体积微小,效果显著:大语言模型中的缩放向量研究
摘要
本文系统地研究了LLM归一化层中的缩放向量,揭示了它们通过自放大预条件效应优化训练,并提出了三种轻量级改进方案,在几乎不增加开销的情况下提升性能和扩展行为。
查看缓存全文
缓存时间: 2026/05/27 02:47
论文页面 - 尺寸微乎其微,影响却举足轻重:论大型语言模型中的缩放向量
来源:https://huggingface.co/papers/2605.26895
摘要
大型语言模型中的缩放向量尽管参数数量极少,却对优化过程有着显著影响;理论分析与实际改进均表明,它能提升训练性能并改善缩放行为。
现代大型语言模型中的归一化层由确定性的归一化操作和一个可学习的缩放向量组成。尽管归一化操作已被广泛研究,但缩放向量虽被普遍使用,却仍未得到充分理解。本文从表达能力、优化过程和架构结构三个角度,对大型语言模型中的缩放向量进行了系统研究。首先,我们通过实验证明:尽管缩放向量仅占模型参数的极小部分,但移除它们会严重损害LLM的预训练效果。我们的理论进一步指出,在Pre-Norm架构中,缩放向量并未增加表达能力;相反,它们通过对后续线性映射产生自放大预处理效应来改善优化过程。其次,我们研究了权重衰减对缩放向量的作用。通过区分Input-Norm层和Output-Norm层,我们从理论上证明:权重衰减对前者有利,但对后者有害,原因是两者在优化和表达能力中扮演着不同角色。第三,基于上述理解,我们提出了三种轻量级且互补的缩放向量改进方案:分支特异性异质性、线性映射周围的改进位置布局,以及幅度-方向重参数化。理论与实验均表明,每项改进都能带来一致的性能提升。最后,我们将这些改进整合为一个统一的缩放向量策略,并在工业级token预算下,针对参数规模从0.12B到2B的密集模型和混合专家模型,使用多种优化器和学习率调度进行了大规模LLM预训练实验评估。该统一策略在终端损失上始终优于调优良好的基线,并展现出更有利的缩放行为,同时仅增加可忽略的参数和计算开销。
查看arXiv页面 (https://arxiv.org/abs/2605.26895)查看PDF (https://arxiv.org/pdf/2605.26895)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26895)
在你的智能体中获取这篇论文:
hf papers read 2605.26895
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
请在模型README.md中引用arxiv.org/abs/2605.26895以将其链接至此页面。
引用此论文的数据集0
没有数据集关联此论文
请在数据集README.md中引用arxiv.org/abs/2605.26895以将其链接至此页面。
引用此论文的Spaces0
没有Space关联此论文
请在Space README.md中引用arxiv.org/abs/2605.26895以将其链接至此页面。
包含此论文的收藏集0
没有包含此论文的收藏集
请将此论文添加到收藏集 (https://huggingface.co/new-collection)中以将其链接至此页面。
相似文章
一层解释所有:理解大型语言模型中的大规模激活现象
本文识别出大型语言模型(LLM)中极端激活现象产生并传播的“大规模涌现层(Massive Emergence Layer)”,并提出一种缓解其僵化性、提升模型在数学推理和指令遵循等任务上性能的方法。
神经语言模型的缩放规律
基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。
水平扩展LLM:无需权重修改的隐藏状态耦合 [R]
残差耦合(RC)使用轻量级学习线性桥接器并行连接冻结的语言模型,实现无需权重修改的水平扩展。与MoE相比,它最多可将困惑度降低80.7%,并在TruthfulQA上提升9.1个百分点的准确率。
超越余弦相似度:重新思考大语言模型中的层相关性
本文证明,余弦相似度作为评估大语言模型中层重要性的指标效果不佳,并提出使用层移除后实际准确率下降作为更稳健的度量标准。
论词汇性在大语言模型中的持续影响
本文研究了词汇重叠(而非语义内容)如何影响跨层和跨架构的大语言模型表示,并证明即使在为语义相似性训练的模型中,这种词汇效应依然存在,导致下游任务性能下降。