DynaTrain: 面向弹性大语言模型训练的快速在线并行度切换

arXiv cs.LG 论文

摘要

DynaTrain 是一个分布式训练系统,能够在大语言模型上实现亚秒级在线并行度重配置,通过虚拟参数空间抽象,使转换速度比现有方法快多达三个数量级。

arXiv:2605.18815v1 公告类型:新 摘要:现代大语言模型(LLM)训练本质上是动态的:资源波动、RLHF阶段切换和集群弹性不断重塑最佳并行布局,这给基于静态执行模型构建的现有训练框架带来了重大挑战。我们提出了DynaTrain,一个分布式训练系统,能够实现跨任意多维并行度的亚秒级在线重配置。其核心是提出了一个虚拟参数空间(VPS)抽象,将所有分布式训练状态统一到一个逻辑坐标空间下,将任何并行配置转化为确定性映射,并将复杂的转换简化为可管理的几何交集。在VPS之上,状态路由与转换层在内存感知、无死锁调度下执行秩本地传输,弹性设备管理器将新世界构建与持续训练重叠以掩盖拓扑变化成本。在多达235B参数的稠密和MoE模型上,DynaTrain在2秒内重配置70B稠密模型,在4.36秒内重配置235B MoE模型,性能比最先进的基于检查点和弹性系统快多达三个数量级,同时保持正确性。
查看原文

相似文章

通过自适应张量并行加速同步RLHF训练中的长尾生成

arXiv cs.AI

本文提出PAT,一种自适应张量并行方法,在同步RLHF训练的生成长阶段动态重构TP配置,以缓解长尾生成瓶颈。在LLaMA3.1-8B和Qwen3-14B上的评估显示,生成延迟最多降低34.6%,端到端迭代延迟最多降低27.2%。

Ulysses 序列并行:百万Token上下文训练

Hugging Face Blog

Ulysses 序列并行是一种用于训练具有百万Token上下文的大语言模型的技术,通过将序列块分布在多个GPU上来降低内存需求,实现高效的长上下文训练。它与HuggingFace Accelerate、Transformers Trainer和TRL集成,支持Flash Attention和DeepSpeed ZeRO。