标签
SCAPE是一种通信高效的分布式优化器,利用一阶矩统计量实现LLM训练的极端稀疏化,在保持准确性的同时将实际训练时间减少高达43.3%。
GLM 5.2 后训练代码已开源,使用 Megatron-LM 进行训练,SGLang 生成 rollout,形成一个持续强化学习循环,权重同步。
本文介绍了 DisagMoE,一种 MoE 训练系统,通过将注意力层和前馈网络(FFN)层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现,通过解决节点间通信瓶颈,在 H800 集群上实现了高达 1.8 倍的加速。