使用Token叠加的高效预训练

Hugging Face Daily Papers 论文

摘要

Token叠加训练(TST)通过将连续token组合成包并在叠加阶段使用多热交叉熵目标,在不改变架构的情况下实现预训练时间最多减少2.5倍,从而提高LLM预训练效率。

大型语言模型的预训练通常成本过高且效率低下,在扩展时需要复杂且侵入性的修改才能实现高数据吞吐量。在这项工作中,我们提出了Token叠加训练(TST),这是一种简单的即插即用方法,在不修改并行性、优化器、分词器、数据或模型架构的情况下,显著提高了预训练期间每FLOPs的数据吞吐量。TST分两个阶段进行:(i) 高效叠加阶段,我们将许多连续token组合成一个包,并使用多热交叉熵(MCE)目标进行训练;(ii) 恢复阶段,我们恢复为标准训练。我们在270M和600M参数规模上对TST进行了广泛评估,并在3B和10B A1B专家混合模型上进行了验证,表明它在不同设置下高度鲁棒。最终,TST在损失和下游评估中始终优于基线,并且在等损失设置下,TST在10B A1B规模上实现了总预训练时间最多减少2.5倍。
查看原文
查看缓存全文

缓存时间: 2026/05/13 16:13

论文页面 - 基于Token叠加的高效预训练

来源:https://huggingface.co/papers/2605.06546

摘要

Token-Superposition Training (TST) 通过在叠加阶段将连续token组合成包,并采用多热交叉熵目标函数,在不改变架构的情况下缩短训练时间,从而提高预训练效率。

大规模语言模型的预训练(https://huggingface.co/papers?q=Pre-training)往往成本高昂且效率低下,需要复杂且侵入式的修改才能实现高数据吞吐量(https://huggingface.co/papers?q=data%20throughput)。在本文中,我们提出了一种简单的即插即用方法——Token-Superposition Training(https://huggingface.co/papers?q=Token-Superposition%20Training)(TST),该方法在不修改并行策略(https://huggingface.co/papers?q=parallelism)、优化器(https://huggingface.co/papers?q=optimizer)、分词器(https://huggingface.co/papers?q=tokenizer)、数据或模型架构(https://huggingface.co/papers?q=model%20architecture)的情况下,显著提高了预训练(https://huggingface.co/papers?q=pre-training)期间每FLOPs(https://huggingface.co/papers?q=FLOPs)的数据吞吐量(https://huggingface.co/papers?q=data%20throughput)。TST分两个阶段进行:(i) 高效的叠加阶段(https://huggingface.co/papers?q=superposition%20phase),将多个连续token组合成一个包,并使用多热交叉熵(https://huggingface.co/papers?q=multi-hot%20cross-entropy)(MCE)目标函数进行训练;(ii) 恢复阶段(https://huggingface.co/papers?q=recovery%20phase),恢复为标准训练。我们在270M和600M参数规模上广泛评估了TST,并在3B和10B A1B混合专家模型上进行了验证,结果表明该方法在不同设置下具有很强的鲁棒性。最终,TST在损失和下游评估中持续优于基线;在损失相等的设定下,TST在10B A1B规模上将总预训练(https://huggingface.co/papers?q=pre-training)时间减少了高达2.5倍。

查看arXiv页面(https://arxiv.org/abs/2605.06546)查看PDF(https://arxiv.org/pdf/2605.06546)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.06546)

引用此论文的模型0

暂无模型与此论文关联

在模型README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该模型。

引用此论文的数据集0

暂无数据集与此论文关联

在数据集README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该数据集。

引用此论文的Spaces0

暂无Space与此论文关联

在Space README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该Space。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接到该收藏集。

相似文章

面向高效全模态LLM的阶段自适应Token选择方法

Hugging Face Daily Papers

SEATS是一种无需训练的阶段自适应Token选择方法,通过逐步剪枝冗余的视觉和音频Token来降低全模态LLM的计算开销,实现了9.3倍FLOPs减少和4.8倍预填充加速,同时保持96.3%的性能。

随机分词法提高模型鲁棒性

arXiv cs.CL

本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。