统一神经缩放定律
摘要
提出了一种统一神经缩放定律,能够精确建模深度神经网络在多个维度(包括参数量、数据集大小、训练步数和计算量)上的缩放行为,并在多种架构和任务上得到验证。
查看缓存全文
缓存时间: 2026/06/02 15:34
论文页面 - 统一神经缩放定律
来源:https://huggingface.co/papers/2605.26248
摘要
本文提出了一种统一神经缩放定律,能够准确建模并外推深度神经网络在多个维度同时变化时的缩放行为,这些维度包括参数数量、数据集大小、训练步数以及计算量,适用于多种架构和任务。
我们提出了一种函数形式(我们称之为统一神经缩放定律 (https://huggingface.co/papers?q=Unified%20Neural%20Scaling%20Law) ,简称 UNSL),该形式能够准确建模并外推深度神经网络 (https://huggingface.co/papers?q=deep%20neural%20networks) 的缩放行为 (https://huggingface.co/papers?q=scaling%20behaviors),当多个维度同时变化时(即,当同时改变模型参数 (https://huggingface.co/papers?q=model%20parameters) 数量、训练数据集大小 (https://huggingface.co/papers?q=training%20dataset%20size)、训练步数 (https://huggingface.co/papers?q=training%20steps)、推理步数 (https://huggingface.co/papers?q=inference%20steps)、计算量 (https://huggingface.co/papers?q=compute) 以及各种超参数 (https://huggingface.co/papers?q=hyperparameters) 时,关心的评估指标如何变化),适用于各种架构 (https://huggingface.co/papers?q=architectures) 以及一组多样的上游和下游任务 (https://huggingface.co/papers?q=downstream%20tasks) 中的每个任务。这组任务包括大规模视觉 (https://huggingface.co/papers?q=vision)、语言 (https://huggingface.co/papers?q=language)、数学 (https://huggingface.co/papers?q=math) 和强化学习 (https://huggingface.co/papers?q=reinforcement%20learning)。与其他神经缩放的函数形式相比,这种函数形式在这组任务上生成的缩放行为外推结果要准确得多。
查看 arXiv 页面 (https://arxiv.org/abs/2605.26248) 查看 PDF (https://arxiv.org/pdf/2605.26248) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26248)
在您的智能体中获取这篇论文:
hf papers read 2605.26248
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 0
没有模型链接本论文
请在模型 README.md 中引用 arxiv.org/abs/2605.26248,以将其链接到此页面。
引用本论文的数据集 0
没有数据集链接本论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.26248,以将其链接到此页面。
引用本论文的 Spaces 0
没有 Space 链接本论文
请在 Space README.md 中引用 arxiv.org/abs/2605.26248,以将其链接到此页面。
包含本论文的收藏集 0
没有收藏集包含本论文
请将本论文添加到一个收藏集 (https://huggingface.co/new-collection) 中,以将其链接到此页面。
相似文章
统一神经缩放定律
本文提出了统一神经缩放定律(UNSL),这是一种函数形式,能够准确建模和推断深度神经网络在多个维度(如参数、数据和步骤)同时变化时的缩放行为,相较于之前的缩放定律有所改进。
神经语言模型的缩放规律
基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。
AI 训练如何实现扩展
# AI 训练如何实现扩展 来源:[https://openai.com/index/how-ai-training-scales/](https://openai.com/index/how-ai-training-scales/) 我们发现梯度噪声尺度(一个简单的统计指标)可以预测神经网络在广泛任务上的训练可并行性。由于复杂任务往往具有更高的梯度噪声,越来越大的批大小在未来可能会变得有用,从而消除了 AI 系统进一步增长的一个潜在瓶颈。更广泛地说,这些结果表明神经网络训练无需被视为神秘的艺术,而可以被严格化和系统化。
数据受限训练的规定性缩放定律
一种考虑数据重复效应的修正缩放定律,为数据受限场景提供了计算最优的训练策略,表明超出某一界限后,进一步重复会适得其反,计算资源应更明智地用于模型容量。
Muon优化器的谱缩放定律
本文首次系统研究了大语言模型训练过程中Muon优化器动量矩阵奇异值谱的行为规律,发现了在不同模型规模(77M至2.8B参数)下清晰的幂律缩放关系。研究结果为从业者提供了有理论依据、感知层级的Newton–Schulz迭代配置指南,在前沿规模下无需额外计算即可保持正交归一化质量。