体积微小,效果显著:大语言模型中的缩放向量研究

Hugging Face Daily Papers 论文

摘要

本文系统地研究了LLM归一化层中的缩放向量,揭示了它们通过自放大预条件效应优化训练,并提出了三种轻量级改进方案,在几乎不增加开销的情况下提升性能和扩展行为。

现代大语言模型(LLM)中的归一化层由确定性归一化操作和可学习缩放向量组成。尽管归一化操作已被广泛研究,但缩放向量虽使用普遍,却仍未被充分理解。本文从表达性、优化和架构结构的角度对LLM中的缩放向量进行了系统研究。首先,我们通过实验证明,虽然缩放向量仅占模型参数的极小比例,但移除它们会显著降低LLM的预训练效果。我们的理论进一步表明,在Pre-Norm架构中,缩放向量并不增加表达性;相反,它们通过对后续线性映射产生自放大预条件效应来改善优化。其次,我们研究了权重衰减对缩放向量的作用。通过区分Input-Norm层和Output-Norm层,我们从理论上表明,由于这两者在优化和表达性中扮演不同角色,权重衰减对前者有利,而对后者有害。第三,基于这一理解,我们提出了三种轻量级且互补的缩放向量改进方案:分支特异性异质性、改进的线性映射放置位置以及幅度-方向重新参数化。理论和实验均表明,每种改进都能带来一致的收益。最后,我们将这些改进整合为统一的缩放向量策略,并通过在密集模型和混合专家模型上(参数量从0.12B到2B)进行大规模LLM预训练实验来评估该策略,实验涵盖多种优化器和学习率调度,并使用工业级代币预算。与经过良好调优的基线相比,统一策略始终能获得更低的最终损失,并展现出更有利的扩展行为,同时几乎不增加参数和计算开销。
查看原文
查看缓存全文

缓存时间: 2026/05/27 02:47

论文页面 - 尺寸微乎其微,影响却举足轻重:论大型语言模型中的缩放向量

来源:https://huggingface.co/papers/2605.26895

摘要

大型语言模型中的缩放向量尽管参数数量极少,却对优化过程有着显著影响;理论分析与实际改进均表明,它能提升训练性能并改善缩放行为。

现代大型语言模型中的归一化层由确定性的归一化操作和一个可学习的缩放向量组成。尽管归一化操作已被广泛研究,但缩放向量虽被普遍使用,却仍未得到充分理解。本文从表达能力、优化过程和架构结构三个角度,对大型语言模型中的缩放向量进行了系统研究。首先,我们通过实验证明:尽管缩放向量仅占模型参数的极小部分,但移除它们会严重损害LLM的预训练效果。我们的理论进一步指出,在Pre-Norm架构中,缩放向量并未增加表达能力;相反,它们通过对后续线性映射产生自放大预处理效应来改善优化过程。其次,我们研究了权重衰减对缩放向量的作用。通过区分Input-Norm层和Output-Norm层,我们从理论上证明:权重衰减对前者有利,但对后者有害,原因是两者在优化和表达能力中扮演着不同角色。第三,基于上述理解,我们提出了三种轻量级且互补的缩放向量改进方案:分支特异性异质性、线性映射周围的改进位置布局,以及幅度-方向重参数化。理论与实验均表明,每项改进都能带来一致的性能提升。最后,我们将这些改进整合为一个统一的缩放向量策略,并在工业级token预算下,针对参数规模从0.12B到2B的密集模型和混合专家模型,使用多种优化器和学习率调度进行了大规模LLM预训练实验评估。该统一策略在终端损失上始终优于调优良好的基线,并展现出更有利的缩放行为,同时仅增加可忽略的参数和计算开销。

查看arXiv页面 (https://arxiv.org/abs/2605.26895)查看PDF (https://arxiv.org/pdf/2605.26895)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26895)

在你的智能体中获取这篇论文:

hf papers read 2605.26895

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

请在模型README.md中引用arxiv.org/abs/2605.26895以将其链接至此页面。

引用此论文的数据集0

没有数据集关联此论文

请在数据集README.md中引用arxiv.org/abs/2605.26895以将其链接至此页面。

引用此论文的Spaces0

没有Space关联此论文

请在Space README.md中引用arxiv.org/abs/2605.26895以将其链接至此页面。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到收藏集 (https://huggingface.co/new-collection)中以将其链接至此页面。

相似文章

神经语言模型的缩放规律

OpenAI Blog

基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。

水平扩展LLM:无需权重修改的隐藏状态耦合 [R]

Reddit r/MachineLearning

残差耦合(RC)使用轻量级学习线性桥接器并行连接冻结的语言模型,实现无需权重修改的水平扩展。与MoE相比,它最多可将困惑度降低80.7%,并在TruthfulQA上提升9.1个百分点的准确率。

论词汇性在大语言模型中的持续影响

arXiv cs.CL

本文研究了词汇重叠(而非语义内容)如何影响跨层和跨架构的大语言模型表示,并证明即使在为语义相似性训练的模型中,这种词汇效应依然存在,导致下游任务性能下降。