使用Token叠加的高效预训练
摘要
Token叠加训练(TST)通过将连续token组合成包并在叠加阶段使用多热交叉熵目标,在不改变架构的情况下实现预训练时间最多减少2.5倍,从而提高LLM预训练效率。
查看缓存全文
缓存时间: 2026/05/13 16:13
论文页面 - 基于Token叠加的高效预训练
来源:https://huggingface.co/papers/2605.06546
摘要
Token-Superposition Training (TST) 通过在叠加阶段将连续token组合成包,并采用多热交叉熵目标函数,在不改变架构的情况下缩短训练时间,从而提高预训练效率。
大规模语言模型的预训练(https://huggingface.co/papers?q=Pre-training)往往成本高昂且效率低下,需要复杂且侵入式的修改才能实现高数据吞吐量(https://huggingface.co/papers?q=data%20throughput)。在本文中,我们提出了一种简单的即插即用方法——Token-Superposition Training(https://huggingface.co/papers?q=Token-Superposition%20Training)(TST),该方法在不修改并行策略(https://huggingface.co/papers?q=parallelism)、优化器(https://huggingface.co/papers?q=optimizer)、分词器(https://huggingface.co/papers?q=tokenizer)、数据或模型架构(https://huggingface.co/papers?q=model%20architecture)的情况下,显著提高了预训练(https://huggingface.co/papers?q=pre-training)期间每FLOPs(https://huggingface.co/papers?q=FLOPs)的数据吞吐量(https://huggingface.co/papers?q=data%20throughput)。TST分两个阶段进行:(i) 高效的叠加阶段(https://huggingface.co/papers?q=superposition%20phase),将多个连续token组合成一个包,并使用多热交叉熵(https://huggingface.co/papers?q=multi-hot%20cross-entropy)(MCE)目标函数进行训练;(ii) 恢复阶段(https://huggingface.co/papers?q=recovery%20phase),恢复为标准训练。我们在270M和600M参数规模上广泛评估了TST,并在3B和10B A1B混合专家模型上进行了验证,结果表明该方法在不同设置下具有很强的鲁棒性。最终,TST在损失和下游评估中持续优于基线;在损失相等的设定下,TST在10B A1B规模上将总预训练(https://huggingface.co/papers?q=pre-training)时间减少了高达2.5倍。
查看arXiv页面(https://arxiv.org/abs/2605.06546)查看PDF(https://arxiv.org/pdf/2605.06546)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.06546)
引用此论文的模型0
暂无模型与此论文关联
在模型README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该模型。
引用此论文的数据集0
暂无数据集与此论文关联
在数据集README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该数据集。
引用此论文的Spaces0
暂无Space与此论文关联
在Space README.md中引用arxiv.org/abs/2605.06546,即可从此页面链接到该Space。
包含此论文的收藏集0
暂无收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接到该收藏集。
相似文章
随机分词法提高模型鲁棒性
本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。
知道何时放弃:通过多阶段飞行中拒绝实现令牌高效的LLM合成数据生成
本文提出了多阶段飞行中拒绝(MSIFR),一种无需训练的框架,通过在中间检查点检测并终止低质量生成轨迹来减少基于LLM的合成数据生成中的令牌浪费。在五个模型和七个基准测试中,MSIFR作为独立方法可减少11%-77%的令牌消耗,与早期退出方法结合时最多减少78.2%,同时保持或提升准确率。
通过学习的Token路由在Transformer中实现自适应计算深度
本文提出了Token-Selective Attention (TSA),一种可微的token路由机制,它学习在每个token上跳过Transformer层中不必要的计算,从而在语言建模任务中将token层操作减少14-23%,且质量损失极小。
并非所有Token都同等重要:通过强化学习中的Token重要性实现高效LLM推理
本文提出了一个强化学习框架,通过建模Token重要性来选择性地对不重要的Token进行惩罚,同时保留关键推理步骤,采用重要性感知奖励和动态长度奖励来减少冗余,在不牺牲准确性的前提下提高效率。
通过令牌剪枝优化韩语中心的大语言模型
本文系统地评估了令牌剪枝这一压缩技术在韩语中心的LLM任务上的应用,该技术通过移除与无关语言对应的令牌和嵌入参数来压缩模型。研究评估了流行的多语言模型(Qwen3、Gemma-3、Llama-3、Aya)在不同词汇配置下的表现,发现令牌剪枝能显著改进生成稳定性并降低特定领域部署的内存占用。