大语言模型中的模型合并扩展定律
摘要
本文建立了语言模型合并的实证扩展定律,确定了模型规模、专家数量与性能之间的幂律关系,从而能够为最佳模型组合提供预测性规划。
查看缓存全文
缓存时间: 2026/05/12 07:32
论文页面 - 大语言模型中的模型融合缩放定律
来源: https://huggingface.co/papers/2509.24244
摘要
大语言模型融合的实证缩放定律揭示了模型大小、专家数量与交叉熵性能之间的幂律关系,为最优模型组合提供了可预测的规划方法。
我们研究了通过交叉熵衡量的语言模型融合的实证缩放定律。尽管模型融合在实践应用广泛,但缺乏一种定量规则来预测随着专家数量的增加或模型规模的扩大所带来的收益。我们识别出一个紧凑的幂律,将模型大小与专家数量联系起来:与规模相关的下限随着模型容量的增加而降低,而融合尾部在专家数量上表现出明显的边际收益递减。该定律在域内和跨域场景中均成立,紧密拟合了多种架构和方法(Average、TA、TIES、DARE)的测量曲线,并解释了两种稳健的规律性:大部分收益出现在早期,且随着专家数量的增加,变异性逐渐缩小。在此基础上,我们提出了一个简单的理论,解释了为何增益大致随 1/k 下降,并将下限和尾部与基础模型的特性以及跨领域的多样性联系起来。该定律实现了预测性规划:估计达到目标损失所需的专家数量,决定何时停止添加专家,并在固定预算下权衡扩大基础模型规模与添加专家——将模型融合从启发式实践转变为计算高效、可规划的多任务训练替代方案。这表明了一种分布式生成式 AI 的缩放原则:通过组合专家可以实现可预测的收益,为通向 AGI 级系统提供了一条互补路径。
查看 arXiv 页面 (https://arxiv.org/abs/2509.24244)查看 PDF (https://arxiv.org/pdf/2509.24244)项目页面 (https://infix.io/research/MergingScalingLaw)GitHub3 (https://github.com/InfiXAI/Merging-Scaling-Law)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2509.24244)
在你的智能体中获取这篇论文:
hf papers read 2509\.24244
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2509.24244 即可从此页面链接它。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2509.24244 即可从此页面链接它。
引用此论文的 Spaces 0
没有链接到此论文的 Space
在 Space 的 README.md 中引用 arxiv.org/abs/2509.24244 即可从此页面链接它。
包含此论文的集合 2
相似文章
神经语言模型的缩放规律
基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。
InfoLaw:基于质量加权混合数据与重复度的大型语言模型信息缩放定律
InfoLaw 是一种数据感知型缩放框架,能够根据 token 消耗量、模型规模、数据混合权重及重复度预测模型损失,从而在不同算力预算下实现高效的数据配方选择。
论大型语言模型缩放指数的微小性
本文讨论了大型语言模型的小缩放指数,认为它们在能源资源方面指示了一种不可持续的状态。还探讨了'pedestal effect',并类比流体湍流以评论数据的平滑性。
训练利润最优LLM的理论
本文提出了一种经济模型,结合缩放定律与微观经济学理论,分析大语言模型在利润最优情况下的训练策略,权衡模型质量、训练成本与硬件效率等因素。
Darwin Family:基于MRI信任加权的进化合并方法,实现语言模型推理的无训练扩展
Darwin Family 是一个无需训练的框架,通过无梯度的权重空间重组实现大语言模型的进化合并,在不额外训练的情况下达到强大的推理性能。该方法引入了MRI信任融合和跨架构育种,用于组合异构模型。