DynaTrain: 面向弹性大语言模型训练的快速在线并行度切换

arXiv cs.LG 2026/05/20 04:00 论文

distributed-training llm-training parallelism elastic-training moe system-design

摘要

DynaTrain 是一个分布式训练系统，能够在大语言模型上实现亚秒级在线并行度重配置，通过虚拟参数空间抽象，使转换速度比现有方法快多达三个数量级。

arXiv:2605.18815v1 公告类型：新摘要：现代大语言模型（LLM）训练本质上是动态的：资源波动、RLHF阶段切换和集群弹性不断重塑最佳并行布局，这给基于静态执行模型构建的现有训练框架带来了重大挑战。我们提出了DynaTrain，一个分布式训练系统，能够实现跨任意多维并行度的亚秒级在线重配置。其核心是提出了一个虚拟参数空间（VPS）抽象，将所有分布式训练状态统一到一个逻辑坐标空间下，将任何并行配置转化为确定性映射，并将复杂的转换简化为可管理的几何交集。在VPS之上，状态路由与转换层在内存感知、无死锁调度下执行秩本地传输，弹性设备管理器将新世界构建与持续训练重叠以掩盖拓扑变化成本。在多达235B参数的稠密和MoE模型上，DynaTrain在2秒内重配置70B稠密模型，在4.36秒内重配置235B MoE模型，性能比最先进的基于检查点和弹性系统快多达三个数量级，同时保持正确性。

查看原文

DynaTrain: 面向弹性大语言模型训练的快速在线并行度切换

相似文章

Dynamic-dLLM：动态缓存预算与自适应并行解码，实现扩散大语言模型的无训练加速

通过自适应张量并行加速同步RLHF训练中的长尾生成

LEAP：通过前瞻早期收敛令牌检测释放 dLLM 并行潜力

加速视觉生成式LLMs的解耦RL：基于扩散并行与训练器辅助生成

@LiorOnAI：现在你可以将任何LLM转换成更快的版本，而无需从头重新训练。NVIDIA刚刚在他们30B的模型上实现了这一点。她…

提交意见反馈