数据受限训练的规定性缩放定律

Hugging Face Daily Papers 论文

摘要

一种考虑数据重复效应的修正缩放定律,为数据受限场景提供了计算最优的训练策略,表明超出某一界限后,进一步重复会适得其反,计算资源应更明智地用于模型容量。

训练计算量正日益超越高质量数据的可用性。这使得核心挑战从计算资源的最优分配转变为从有限数据中提取最大价值。广泛采用的Chinchilla缩放定律假设每个训练词元都是唯一的,这限制了其在数据受限情况下指导预训练决策的能力。我们通过一个简单的加性过拟合惩罚项对重复训练下的额外损失进行建模,发现它能准确描述模型行为。我们的缩放定律得出了性质上全新的计算最优分配建议:超出某一界限后,进一步重复会适得其反,计算资源应更明智地用于模型容量。我们证明,遵循我们定律推荐的配置可提升数据受限场景下的性能。最后,由于我们的单参数形式将过拟合隔离为单一系数,因此可以在不同训练配置之间进行直接比较。作为案例研究,我们证明强权重衰减(λ=1.0)可将该系数降低约70%,为近期发现的数据受限场景下最优权重衰减比标准做法大一个数量级提供了缩放定律解释。
查看原文
查看缓存全文

缓存时间: 2026/05/08 18:29

论文页面 - 数据受限训练的规范性缩放定律

来源:https://huggingface.co/papers/2605.01640

摘要

一种修正后的缩放定律考虑了数据重复效应,并提供了数据受限场景下的计算最优训练策略。

训练计算量的增长日益超越高质量数据的可用性。这使核心挑战从最优计算分配转向从有限数据中提取最大价值。广泛采用的 Chinchilla 缩放定律(https://huggingface.co/papers?q=Chinchilla%20scaling%20law)假设每个训练 token 都是唯一的,这限制了其在数据受限场景(https://huggingface.co/papers?q=data-constrained%20regimes)下指导预训练决策的能力。我们通过一个简单的加性过拟合惩罚项(https://huggingface.co/papers?q=overfitting%20penalty)对重复下的额外损失进行建模,发现该模型能准确描述模型行为。我们的缩放定律得出了性质全新的计算最优分配(https://huggingface.co/papers?q=compute-optimal%20allocation)建议:超过某一点后,进一步重复会适得其反,计算资源更应投入在模型容量上。我们证明,遵循该定律推荐的配置能提升数据受限场景(https://huggingface.co/papers?q=data-constrained%20regimes)下的性能。最后,由于我们的单参数形式将过拟合隔离在单一系数中,因此能够直接比较不同训练配置。作为案例研究,我们展示了强权重衰减(https://huggingface.co/papers?q=weight%20decay)(λ=1.0)将该系数降低了约70%,从而为近期发现——数据受限场景(https://huggingface.co/papers?q=data-constrained%20regimes)下的最优权重衰减(https://huggingface.co/papers?q=weight%20decay)比标准做法高出一个数量级——提供了缩放定律层面的解释。

查看 arXiv 页面(https://arxiv.org/abs/2605.01640)查看 PDF(https://arxiv.org/pdf/2605.01640)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.01640)

在你的 Agent 中获取该论文:

hf papers read 2605\.01640

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

尚无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.01640 以在此页面建立链接。

引用该论文的数据集0

尚无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.01640 以在此页面建立链接。

引用该论文的 Spaces0

尚无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.01640 以在此页面建立链接。

包含该论文的收藏0

尚无收藏包含此论文

请将这篇论文添加到一个收藏(https://huggingface.co/new-collection)中以在此页面建立链接。

相似文章

数据约束下的混合预训练缩放定律

arXiv cs.LG

本文研究了在混合预训练中稀缺目标数据与丰富通用数据之间的权衡,发现重复是驱动性能的关键因素,并且混合训练能容忍目标数据重复15-20次。我们引入了一个考虑重复影响的缩放定律,以优化数据约束条件下的混合配置。

奖励模型过度优化的标度律

OpenAI Blog

OpenAI 研究人员通过实验研究了奖励模型过度优化对性能的影响,建立了标度律来说明代理奖励优化与真实性能之间的关系如何随优化方法变化,并与模型规模成可预测的关系。