使用Token叠加的高效预训练

Hugging Face Daily Papers 论文

摘要

Token叠加训练(TST)通过将连续token组合成包并在叠加阶段使用多热交叉熵目标,在不改变架构的情况下实现预训练时间最多减少2.5倍,从而提高LLM预训练效率。

大型语言模型的预训练通常成本过高且效率低下,在扩展时需要复杂且侵入性的修改才能实现高数据吞吐量。在这项工作中,我们提出了Token叠加训练(TST),这是一种简单的即插即用方法,在不修改并行性、优化器、分词器、数据或模型架构的情况下,显著提高了预训练期间每FLOPs的数据吞吐量。TST分两个阶段进行:(i) 高效叠加阶段,我们将许多连续token组合成一个包,并使用多热交叉熵(MCE)目标进行训练;(ii) 恢复阶段,我们恢复为标准训练。我们在270M和600M参数规模上对TST进行了广泛评估,并在3B和10B A1B专家混合模型上进行了验证,表明它在不同设置下高度鲁棒。最终,TST在损失和下游评估中始终优于基线,并且在等损失设置下,TST在10B A1B规模上实现了总预训练时间最多减少2.5倍。
查看原文
查看缓存全文

缓存时间: 2026/05/13 16:13

论文页面 - 基于Token叠加的高效预训练

来源:https://huggingface.co/papers/2605.06546

摘要

Token-Superposition Training (TST) 通过在叠加阶段将连续token组合成包,并采用多热交叉熵目标函数,在不改变架构的情况下缩短训练时间,从而提高预训练效率。

大规模语言模型的预训练(https://huggingface.co/papers?q=Pre-training)往往成本高昂且效率低下,需要复杂且侵入式的修改才能实现高数据吞吐量(https://huggingface.co/papers?q=data%20throughput)。在本文中,我们提出了一种简单的即插即用方法——Token-Superposition Training(https://huggingface.co/papers?q=Token-Superposition%20Training)(TST),该方法在不修改并行策略(https://huggingface.co/papers?q=parallelism)、优化器(https://huggingface.co/papers?q=optimizer)、分词器(https://huggingface.co/papers?q=tokenizer)、数据或模型架构(https://huggingface.co/papers?q=model%20architecture)的情况下,显著提高了预训练(https://huggingface.co/papers?q=pre-training)期间每FLOPs(https://huggingface.co/papers?q=FLOPs)的数据吞吐量(https://huggingface.co/papers?q=data%20throughput)。TST分两个阶段进行:(i) 高效的叠加阶段(https://huggingface.co/papers?q=superposition%20phase),将多个连续token组合成一个包,并使用多热交叉熵(https://huggingface.co/papers?q=multi-hot%20cross-entropy)(MCE)目标函数进行训练;(ii) 恢复阶段(https://huggingface.co/papers?q=recovery%20phase),恢复为标准训练。我们在270M和600M参数规模上广泛评估了TST,并在3B和10B A1B混合专家模型上进行了验证,结果表明该方法在不同设置下具有很强的鲁棒性。最终,TST在损失和下游评估中持续优于基线;在损失相等的设定下,TST在10B A1B规模上将总预训练(https://huggingface.co/papers?q=pre-training)时间减少了高达2.5倍。

查看arXiv页面(https://arxiv.org/abs/2605.06546)查看PDF(https://arxiv.org/pdf/2605.06546)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.06546)

引用此论文的模型0

暂无模型与此论文关联

在模型README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该模型。

引用此论文的数据集0

暂无数据集与此论文关联

在数据集README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该数据集。

引用此论文的Spaces0

暂无Space与此论文关联

在Space README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该Space。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接到该收藏集。

相似文章

随机分词法提高模型鲁棒性

arXiv cs.CL

本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。

知道何时放弃:通过多阶段飞行中拒绝实现令牌高效的LLM合成数据生成

arXiv cs.AI

本文提出了多阶段飞行中拒绝(MSIFR),一种无需训练的框架,通过在中间检查点检测并终止低质量生成轨迹来减少基于LLM的合成数据生成中的令牌浪费。在五个模型和七个基准测试中,MSIFR作为独立方法可减少11%-77%的令牌消耗,与早期退出方法结合时最多减少78.2%,同时保持或提升准确率。

通过令牌剪枝优化韩语中心的大语言模型

arXiv cs.CL

本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。