使用Token叠加的高效预训练

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

Token叠加训练（TST）通过将连续token组合成包并在叠加阶段使用多热交叉熵目标，在不改变架构的情况下实现预训练时间最多减少2.5倍，从而提高LLM预训练效率。

大型语言模型的预训练通常成本过高且效率低下，在扩展时需要复杂且侵入性的修改才能实现高数据吞吐量。在这项工作中，我们提出了Token叠加训练（TST），这是一种简单的即插即用方法，在不修改并行性、优化器、分词器、数据或模型架构的情况下，显著提高了预训练期间每FLOPs的数据吞吐量。TST分两个阶段进行：(i) 高效叠加阶段，我们将许多连续token组合成一个包，并使用多热交叉熵（MCE）目标进行训练；(ii) 恢复阶段，我们恢复为标准训练。我们在270M和600M参数规模上对TST进行了广泛评估，并在3B和10B A1B专家混合模型上进行了验证，表明它在不同设置下高度鲁棒。最终，TST在损失和下游评估中始终优于基线，并且在等损失设置下，TST在10B A1B规模上实现了总预训练时间最多减少2.5倍。

查看原文

查看缓存全文

缓存时间: 2026/05/13 16:13

论文页面 - 基于Token叠加的高效预训练

来源：https://huggingface.co/papers/2605.06546

摘要

Token-Superposition Training (TST) 通过在叠加阶段将连续token组合成包，并采用多热交叉熵目标函数，在不改变架构的情况下缩短训练时间，从而提高预训练效率。

大规模语言模型的预训练（https://huggingface.co/papers?q=Pre-training）往往成本高昂且效率低下，需要复杂且侵入式的修改才能实现高数据吞吐量（https://huggingface.co/papers?q=data%20throughput）。在本文中，我们提出了一种简单的即插即用方法——Token-Superposition Training（https://huggingface.co/papers?q=Token-Superposition%20Training）（TST），该方法在不修改并行策略（https://huggingface.co/papers?q=parallelism）、优化器（https://huggingface.co/papers?q=optimizer）、分词器（https://huggingface.co/papers?q=tokenizer）、数据或模型架构（https://huggingface.co/papers?q=model%20architecture）的情况下，显著提高了预训练（https://huggingface.co/papers?q=pre-training）期间每FLOPs（https://huggingface.co/papers?q=FLOPs）的数据吞吐量（https://huggingface.co/papers?q=data%20throughput）。TST分两个阶段进行：(i) 高效的叠加阶段（https://huggingface.co/papers?q=superposition%20phase），将多个连续token组合成一个包，并使用多热交叉熵（https://huggingface.co/papers?q=multi-hot%20cross-entropy）（MCE）目标函数进行训练；(ii) 恢复阶段（https://huggingface.co/papers?q=recovery%20phase），恢复为标准训练。我们在270M和600M参数规模上广泛评估了TST，并在3B和10B A1B混合专家模型上进行了验证，结果表明该方法在不同设置下具有很强的鲁棒性。最终，TST在损失和下游评估中持续优于基线；在损失相等的设定下，TST在10B A1B规模上将总预训练（https://huggingface.co/papers?q=pre-training）时间减少了高达2.5倍。

查看arXiv页面（https://arxiv.org/abs/2605.06546）查看PDF（https://arxiv.org/pdf/2605.06546）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.06546）

引用此论文的模型0

暂无模型与此论文关联

在模型README.md中引用arxiv.org/abs/2605.06546，即可从此页面链接到该模型。

引用此论文的数据集0

暂无数据集与此论文关联

在数据集README.md中引用arxiv.org/abs/2605.06546，即可从此页面链接到该数据集。

引用此论文的Spaces0

暂无Space与此论文关联

在Space README.md中引用arxiv.org/abs/2605.06546，即可从此页面链接到该Space。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection）即可从此页面链接到该收藏集。

使用Token叠加的高效预训练

论文页面 - 基于Token叠加的高效预训练

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

Nous Research 发布 Token Superposition Training，可将 LLM 预训练速度提升高达 2.5 倍，覆盖 270M 至 10B 参数模型

面向高效全模态LLM的阶段自适应Token选择方法

通过字节级模拟解耦子词分词对语言模型训练的益处

随机分词法提高模型鲁棒性

NITP：面向大语言模型预训练的下一隐式标记预测

提交意见反馈