统一神经缩放定律

Hugging Face Daily Papers 2026/05/25 00:00 论文

scaling-laws neural-scaling deep-learning model-scaling compute-scaling training-scaling unified-model

摘要

提出了一种统一神经缩放定律，能够精确建模深度神经网络在多个维度（包括参数量、数据集大小、训练步数和计算量）上的缩放行为，并在多种架构和任务上得到验证。

我们提出了一种函数形式（称为统一神经缩放定律，UNSL），能够精确建模和推断深度神经网络在多个维度同时变化时的缩放行为（即当同时改变模型参数数量、训练数据集大小、训练步数、推理步数、计算量以及各种超参数时，感兴趣的评价指标如何变化），适用于多种架构，并涵盖一组多样化的上游和下游任务中的各个任务。这组任务包括大规模视觉、语言、数学和强化学习。与其他神经缩放函数形式相比，这种函数形式能够在该任务集上产生显著更准确的缩放行为推断。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:34

论文页面 - 统一神经缩放定律

来源：https://huggingface.co/papers/2605.26248

摘要

本文提出了一种统一神经缩放定律，能够准确建模并外推深度神经网络在多个维度同时变化时的缩放行为，这些维度包括参数数量、数据集大小、训练步数以及计算量，适用于多种架构和任务。

我们提出了一种函数形式（我们称之为统一神经缩放定律 (https://huggingface.co/papers?q=Unified%20Neural%20Scaling%20Law) ，简称 UNSL），该形式能够准确建模并外推深度神经网络 (https://huggingface.co/papers?q=deep%20neural%20networks) 的缩放行为 (https://huggingface.co/papers?q=scaling%20behaviors)，当多个维度同时变化时（即，当同时改变模型参数 (https://huggingface.co/papers?q=model%20parameters) 数量、训练数据集大小 (https://huggingface.co/papers?q=training%20dataset%20size)、训练步数 (https://huggingface.co/papers?q=training%20steps)、推理步数 (https://huggingface.co/papers?q=inference%20steps)、计算量 (https://huggingface.co/papers?q=compute) 以及各种超参数 (https://huggingface.co/papers?q=hyperparameters) 时，关心的评估指标如何变化），适用于各种架构 (https://huggingface.co/papers?q=architectures) 以及一组多样的上游和下游任务 (https://huggingface.co/papers?q=downstream%20tasks) 中的每个任务。这组任务包括大规模视觉 (https://huggingface.co/papers?q=vision)、语言 (https://huggingface.co/papers?q=language)、数学 (https://huggingface.co/papers?q=math) 和强化学习 (https://huggingface.co/papers?q=reinforcement%20learning)。与其他神经缩放的函数形式相比，这种函数形式在这组任务上生成的缩放行为外推结果要准确得多。

查看 arXiv 页面 (https://arxiv.org/abs/2605.26248) 查看 PDF (https://arxiv.org/pdf/2605.26248) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26248)

在您的智能体中获取这篇论文：

hf papers read 2605.26248

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

没有模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.26248，以将其链接到此页面。

引用本论文的数据集 0

没有数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.26248，以将其链接到此页面。

引用本论文的 Spaces 0

没有 Space 链接本论文

请在 Space README.md 中引用 arxiv.org/abs/2605.26248，以将其链接到此页面。

包含本论文的收藏集 0

没有收藏集包含本论文

请将本论文添加到一个收藏集 (https://huggingface.co/new-collection) 中，以将其链接到此页面。

相似文章