神经语言模型的缩放规律

OpenAI Blog 2020/01/23 08:00 论文

scaling-laws language-models neural-networks compute-efficiency empirical-study cross-entropy-loss power-law

摘要

基础性实证研究，展示了语言模型性能与模型规模、数据集大小和计算预算之间的幂律缩放关系，对最优训练资源分配和样本效率有重要启示。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:55

# 神经语言模型的缩放规律来源：https://openai.com/index/scaling-laws-for-neural-language-models/ ## 摘要我们研究了语言模型在交叉熵损失上的经验缩放规律。损失与模型大小、数据集大小和训练计算量呈幂律关系，某些趋势跨越七个以上的数量级。网络宽度或深度等其他架构细节在很大范围内的影响最小。简单的方程式刻画了过拟合对模型/数据集大小的依赖关系，以及训练速度对模型大小的依赖关系。这些关系使我们能够确定固定计算预算的最优分配。较大的模型在样本效率上明显更优，因此最优的计算高效训练涉及在相对适度的数据量上训练非常大的模型，并在收敛前显著停止训练。

神经语言模型的缩放规律

相似文章

大语言模型中的模型合并扩展定律

论大型语言模型缩放指数的微小性

奖励模型过度优化的标度律

统一神经缩放定律

Transformer 可扩展性危机：现代语言模型中性能墙的首次全面实证分析

提交意见反馈