DynaTrain: 面向弹性大语言模型训练的快速在线并行度切换
摘要
DynaTrain 是一个分布式训练系统,能够在大语言模型上实现亚秒级在线并行度重配置,通过虚拟参数空间抽象,使转换速度比现有方法快多达三个数量级。
arXiv:2605.18815v1 公告类型:新
摘要:现代大语言模型(LLM)训练本质上是动态的:资源波动、RLHF阶段切换和集群弹性不断重塑最佳并行布局,这给基于静态执行模型构建的现有训练框架带来了重大挑战。我们提出了DynaTrain,一个分布式训练系统,能够实现跨任意多维并行度的亚秒级在线重配置。其核心是提出了一个虚拟参数空间(VPS)抽象,将所有分布式训练状态统一到一个逻辑坐标空间下,将任何并行配置转化为确定性映射,并将复杂的转换简化为可管理的几何交集。在VPS之上,状态路由与转换层在内存感知、无死锁调度下执行秩本地传输,弹性设备管理器将新世界构建与持续训练重叠以掩盖拓扑变化成本。在多达235B参数的稠密和MoE模型上,DynaTrain在2秒内重配置70B稠密模型,在4.36秒内重配置235B MoE模型,性能比最先进的基于检查点和弹性系统快多达三个数量级,同时保持正确性。
相似文章
通过自适应张量并行加速同步RLHF训练中的长尾生成
本文提出PAT,一种自适应张量并行方法,在同步RLHF训练的生成长阶段动态重构TP配置,以缓解长尾生成瓶颈。在LLaMA3.1-8B和Qwen3-14B上的评估显示,生成延迟最多降低34.6%,端到端迭代延迟最多降低27.2%。
LEAP:通过前瞻早期收敛令牌检测释放 dLLM 并行潜力
本文介绍了 LEAP,这是一种无需训练的方法,旨在通过检测早期收敛令牌来加速扩散语言模型(dLLMs)的推理过程。该方法能在不损失准确性的前提下,将去噪步骤减少 30%。
Ulysses 序列并行:百万Token上下文训练
Ulysses 序列并行是一种用于训练具有百万Token上下文的大语言模型的技术,通过将序列块分布在多个GPU上来降低内存需求,实现高效的长上下文训练。它与HuggingFace Accelerate、Transformers Trainer和TRL集成,支持Flash Attention和DeepSpeed ZeRO。
快慢学习:迈向持续适应的大语言模型 [R]
本文提出了一种用于大语言模型的快慢训练框架,该框架结合参数更新与上下文优化,以提高样本效率并减少持续学习过程中的灾难性遗忘。
用于动力系统重构的循环神经网络的时间并行训练
本文研究了用于动力系统重构中训练循环神经网络的时间并行算法,提出了GTF-DEER,它能够在长序列上实现稳定学习,并提高重构精度。