使用Token叠加的高效预训练
摘要
Token叠加训练(TST)通过将连续token组合成包并在叠加阶段使用多热交叉熵目标,在不改变架构的情况下实现预训练时间最多减少2.5倍,从而提高LLM预训练效率。
查看缓存全文
缓存时间: 2026/05/13 16:13
论文页面 - 基于Token叠加的高效预训练
来源:https://huggingface.co/papers/2605.06546
摘要
Token-Superposition Training (TST) 通过在叠加阶段将连续token组合成包,并采用多热交叉熵目标函数,在不改变架构的情况下缩短训练时间,从而提高预训练效率。
大规模语言模型的预训练(https://huggingface.co/papers?q=Pre-training)往往成本高昂且效率低下,需要复杂且侵入式的修改才能实现高数据吞吐量(https://huggingface.co/papers?q=data%20throughput)。在本文中,我们提出了一种简单的即插即用方法——Token-Superposition Training(https://huggingface.co/papers?q=Token-Superposition%20Training)(TST),该方法在不修改并行策略(https://huggingface.co/papers?q=parallelism)、优化器(https://huggingface.co/papers?q=optimizer)、分词器(https://huggingface.co/papers?q=tokenizer)、数据或模型架构(https://huggingface.co/papers?q=model%20architecture)的情况下,显著提高了预训练(https://huggingface.co/papers?q=pre-training)期间每FLOPs(https://huggingface.co/papers?q=FLOPs)的数据吞吐量(https://huggingface.co/papers?q=data%20throughput)。TST分两个阶段进行:(i) 高效的叠加阶段(https://huggingface.co/papers?q=superposition%20phase),将多个连续token组合成一个包,并使用多热交叉熵(https://huggingface.co/papers?q=multi-hot%20cross-entropy)(MCE)目标函数进行训练;(ii) 恢复阶段(https://huggingface.co/papers?q=recovery%20phase),恢复为标准训练。我们在270M和600M参数规模上广泛评估了TST,并在3B和10B A1B混合专家模型上进行了验证,结果表明该方法在不同设置下具有很强的鲁棒性。最终,TST在损失和下游评估中持续优于基线;在损失相等的设定下,TST在10B A1B规模上将总预训练(https://huggingface.co/papers?q=pre-training)时间减少了高达2.5倍。
查看arXiv页面(https://arxiv.org/abs/2605.06546)查看PDF(https://arxiv.org/pdf/2605.06546)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.06546)
引用此论文的模型0
暂无模型与此论文关联
在模型README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该模型。
引用此论文的数据集0
暂无数据集与此论文关联
在数据集README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该数据集。
引用此论文的Spaces0
暂无Space与此论文关联
在Space README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该Space。
包含此论文的收藏集0
暂无收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接到该收藏集。
相似文章
Nous Research 发布 Token Superposition Training,可将 LLM 预训练速度提升高达 2.5 倍,覆盖 270M 至 10B 参数模型
Nous Research 发布 Token Superposition Training (TST),这是一种可将 LLM 预训练速度提升高达 2.5 倍的方法,覆盖 270M 至 10B 参数模型,在不改变架构或数据的情况下减少实际运行时间。
面向高效全模态LLM的阶段自适应Token选择方法
SEATS是一种无需训练的阶段自适应Token选择方法,通过逐步剪枝冗余的视觉和音频Token来降低全模态LLM的计算开销,实现了9.3倍FLOPs减少和4.8倍预填充加速,同时保持96.3%的性能。
通过字节级模拟解耦子词分词对语言模型训练的益处
本文通过进行受控的字节级预训练实验,研究了子词分词对LLM训练效率和性能的影响。它揭示了关键因素,如训练吞吐量以及将子词边界作为语言先验的整合。
随机分词法提高模型鲁棒性
本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。
NITP:面向大语言模型预训练的下一隐式标记预测
下一隐式标记预测(NITP)通过在表示空间中添加密集的连续监督来增强语言模型预训练,从而在各种模型规模上以极小的计算开销提升泛化能力和性能。