数据受限训练的规定性缩放定律
摘要
一种考虑数据重复效应的修正缩放定律,为数据受限场景提供了计算最优的训练策略,表明超出某一界限后,进一步重复会适得其反,计算资源应更明智地用于模型容量。
查看缓存全文
缓存时间: 2026/05/08 18:29
论文页面 - 数据受限训练的规范性缩放定律
来源:https://huggingface.co/papers/2605.01640
摘要
一种修正后的缩放定律考虑了数据重复效应,并提供了数据受限场景下的计算最优训练策略。
训练计算量的增长日益超越高质量数据的可用性。这使核心挑战从最优计算分配转向从有限数据中提取最大价值。广泛采用的 Chinchilla 缩放定律(https://huggingface.co/papers?q=Chinchilla%20scaling%20law)假设每个训练 token 都是唯一的,这限制了其在数据受限场景(https://huggingface.co/papers?q=data-constrained%20regimes)下指导预训练决策的能力。我们通过一个简单的加性过拟合惩罚项(https://huggingface.co/papers?q=overfitting%20penalty)对重复下的额外损失进行建模,发现该模型能准确描述模型行为。我们的缩放定律得出了性质全新的计算最优分配(https://huggingface.co/papers?q=compute-optimal%20allocation)建议:超过某一点后,进一步重复会适得其反,计算资源更应投入在模型容量上。我们证明,遵循该定律推荐的配置能提升数据受限场景(https://huggingface.co/papers?q=data-constrained%20regimes)下的性能。最后,由于我们的单参数形式将过拟合隔离在单一系数中,因此能够直接比较不同训练配置。作为案例研究,我们展示了强权重衰减(https://huggingface.co/papers?q=weight%20decay)(λ=1.0)将该系数降低了约70%,从而为近期发现——数据受限场景(https://huggingface.co/papers?q=data-constrained%20regimes)下的最优权重衰减(https://huggingface.co/papers?q=weight%20decay)比标准做法高出一个数量级——提供了缩放定律层面的解释。
查看 arXiv 页面(https://arxiv.org/abs/2605.01640)查看 PDF(https://arxiv.org/pdf/2605.01640)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.01640)
在你的 Agent 中获取该论文:
hf papers read 2605\.01640
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
尚无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.01640 以在此页面建立链接。
引用该论文的数据集0
尚无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.01640 以在此页面建立链接。
引用该论文的 Spaces0
尚无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.01640 以在此页面建立链接。
包含该论文的收藏0
尚无收藏包含此论文
请将这篇论文添加到一个收藏(https://huggingface.co/new-collection)中以在此页面建立链接。
相似文章
数据约束下的混合预训练缩放定律
本文研究了在混合预训练中稀缺目标数据与丰富通用数据之间的权衡,发现重复是驱动性能的关键因素,并且混合训练能容忍目标数据重复15-20次。我们引入了一个考虑重复影响的缩放定律,以优化数据约束条件下的混合配置。
数据受限的语言模型预训练:改进的正则化与缩放定律
本文研究数据受限的语言模型预训练,提出了掩码输入正则化(MIR)以改进验证损失和下游性能,以及SoftQ,一种更好地捕捉重复数据下模型与数据交互的缩放定律。
@lilianweng: 一篇超级迟到的(3年以上?)关于扩展定律的帖子。计算很昂贵。扩展定律是一种帮助我们推理…
Lilian Weng的博客文章全面概述了深度学习中的扩展定律,涵盖了它们的推导、计算最优分配以及Kaplan等人与Chinchilla之间的争论。
扩展定律,谨慎解读(25分钟阅读)
全面概述深度学习中的扩展定律,追溯其理论基础和实证发现,并解释损失如何随模型大小、数据和计算量可预测地降低。
奖励模型过度优化的标度律
OpenAI 研究人员通过实验研究了奖励模型过度优化对性能的影响,建立了标度律来说明代理奖励优化与真实性能之间的关系如何随优化方法变化,并与模型规模成可预测的关系。