大语言模型中的模型合并扩展定律

Hugging Face Daily Papers 论文

摘要

本文建立了语言模型合并的实证扩展定律,确定了模型规模、专家数量与性能之间的幂律关系,从而能够为最佳模型组合提供预测性规划。

我们研究了通过交叉熵衡量的语言模型合并的实证扩展定律。尽管模型合并在实践中被广泛使用,但缺乏一种定量规则来预测随着专家数量的增加或模型规模的扩大所能带来的收益。我们确定了一个紧凑的幂律公式,将模型规模与专家数量联系起来:随规模变化的基准线随着模型容量的增加而降低,而合并的尾部在专家数量上表现出明显的收益递减。该定律在领域内和跨领域均成立,紧密拟合了不同架构和方法(Average、TA、TIES、DARE)的实测曲线,并解释了两个稳健的规律:大部分增益在早期获得,且随着专家数量的增加,变异性缩小。在此基础上,我们提出了一种简单的理论,解释了为何增益大致以 1/k 的速度下降,并将基准线和尾部与基础模型的属性以及跨领域的多样性联系起来。这一定律使得预测性规划成为可能:估算达到目标损失所需的专家数量,决定何时停止添加专家,并在固定预算下权衡扩大基础模型规模与增加专家数量——将模型合并从启发式实践转变为计算高效、可规划的替代多任务训练方案。这表明了分布式生成式人工智能的一个扩展原则:通过组合专家可以实现可预测的增益,为实现 AGI 级系统提供了一条互补的路径。
查看原文
查看缓存全文

缓存时间: 2026/05/12 07:32

论文页面 - 大语言模型中的模型融合缩放定律

来源: https://huggingface.co/papers/2509.24244

摘要

大语言模型融合的实证缩放定律揭示了模型大小、专家数量与交叉熵性能之间的幂律关系,为最优模型组合提供了可预测的规划方法。

我们研究了通过交叉熵衡量的语言模型融合的实证缩放定律。尽管模型融合在实践应用广泛,但缺乏一种定量规则来预测随着专家数量的增加或模型规模的扩大所带来的收益。我们识别出一个紧凑的幂律,将模型大小与专家数量联系起来:与规模相关的下限随着模型容量的增加而降低,而融合尾部在专家数量上表现出明显的边际收益递减。该定律在域内和跨域场景中均成立,紧密拟合了多种架构和方法(Average、TA、TIES、DARE)的测量曲线,并解释了两种稳健的规律性:大部分收益出现在早期,且随着专家数量的增加,变异性逐渐缩小。在此基础上,我们提出了一个简单的理论,解释了为何增益大致随 1/k 下降,并将下限和尾部与基础模型的特性以及跨领域的多样性联系起来。该定律实现了预测性规划:估计达到目标损失所需的专家数量,决定何时停止添加专家,并在固定预算下权衡扩大基础模型规模与添加专家——将模型融合从启发式实践转变为计算高效、可规划的多任务训练替代方案。这表明了一种分布式生成式 AI 的缩放原则:通过组合专家可以实现可预测的收益,为通向 AGI 级系统提供了一条互补路径。

查看 arXiv 页面 (https://arxiv.org/abs/2509.24244)查看 PDF (https://arxiv.org/pdf/2509.24244)项目页面 (https://infix.io/research/MergingScalingLaw)GitHub3 (https://github.com/InfiXAI/Merging-Scaling-Law)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2509.24244)

在你的智能体中获取这篇论文:

hf papers read 2509\.24244

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2509.24244 即可从此页面链接它。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2509.24244 即可从此页面链接它。

引用此论文的 Spaces 0

没有链接到此论文的 Space

在 Space 的 README.md 中引用 arxiv.org/abs/2509.24244 即可从此页面链接它。

包含此论文的集合 2

相似文章

神经语言模型的缩放规律

OpenAI Blog

基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。

论大型语言模型缩放指数的微小性

arXiv cs.AI

本文讨论了大型语言模型的小缩放指数,认为它们在能源资源方面指示了一种不可持续的状态。还探讨了'pedestal effect',并类比流体湍流以评论数据的平滑性。

训练利润最优LLM的理论

arXiv cs.LG

本文提出了一种经济模型,结合缩放定律与微观经济学理论,分析大语言模型在利润最优情况下的训练策略,权衡模型质量、训练成本与硬件效率等因素。