神经语言模型的缩放规律
摘要
基础性实证研究,展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系,对最优训练资源分配和样本效率有重要启示。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:55
# 神经语言模型的缩放规律
来源:https://openai.com/index/scaling-laws-for-neural-language-models/
## 摘要
我们研究了语言模型在交叉熵损失上的经验缩放规律。损失与模型大小、数据集大小和训练计算量呈幂律关系,某些趋势跨越七个以上的数量级。网络宽度或深度等其他架构细节在很大范围内的影响最小。简单的方程式刻画了过拟合对模型/数据集大小的依赖关系,以及训练速度对模型大小的依赖关系。这些关系使我们能够确定固定计算预算的最优分配。较大的模型在样本效率上明显更优,因此最优的计算高效训练涉及在相对适度的数据量上训练非常大的模型,并在收敛前显著停止训练。
相似文章
大语言模型中的模型合并扩展定律
本文建立了语言模型合并的实证扩展定律,确定了模型规模、专家数量与性能之间的幂律关系,从而能够为最佳模型组合提供预测性规划。
论大型语言模型缩放指数的微小性
本文讨论了大型语言模型的小缩放指数,认为它们在能源资源方面指示了一种不可持续的状态。还探讨了'pedestal effect',并类比流体湍流以评论数据的平滑性。
奖励模型过度优化的标度律
OpenAI 研究人员通过实验研究了奖励模型过度优化对性能的影响,建立了标度律来说明代理奖励优化与真实性能之间的关系如何随优化方法变化,并与模型规模成可预测的关系。
统一神经缩放定律
提出了一种统一神经缩放定律,能够精确建模深度神经网络在多个维度(包括参数量、数据集大小、训练步数和计算量)上的缩放行为,并在多种架构和任务上得到验证。
Transformer 可扩展性危机:现代语言模型中性能墙的首次全面实证分析
本文对 118 个 Transformer 模型进行了首次大规模实证分析,揭示了关键的性能墙,其中成功率从 512 token 时的 88.1% 下降到 2048 token 时的 0%,挑战了主流的缩放假设。