megatron-lm

#megatron-lm

SCAPE: Accurate and Efficient LLM Training with Extreme Sparse Communication

arXiv cs.LG ↗ · yesterday Cached

SCAPE is a communication-efficient distributed optimizer that leverages first-moment statistics to enable extreme sparsification for LLM training, preserving accuracy while reducing wall-clock time by up to 43.3%.

0 favorites 0 likes

#megatron-lm

@VukRosic99: GLM 5.2 post-training code is OPEN SOURCE (slime) Megatron-LM trains. SGLang generates the rollouts. A single data buff…

X AI KOLs Timeline ↗ · 2026-06-27 Cached

GLM 5.2 post-training code is open-sourced, using Megatron-LM for training and SGLang for rollout generation, forming a continuous RL loop with synchronized weights.

0 favorites 0 likes

#megatron-lm

DisagMoE: Computation-Communication overlapped MoE Training via Disaggregated AF-Pipe Parallelism

arXiv cs.LG ↗ · 2026-05-13 Cached

This paper introduces DisagMoE, a system for MoE training that optimizes computation-communication overlap by disaggregating attention and FFN layers across GPU groups. Implemented on Megatron-LM, it achieves up to 1.8x speedup on H800 clusters by addressing inter-node communication bottlenecks.

0 favorites 0 likes

megatron-lm

SCAPE: Accurate and Efficient LLM Training with Extreme Sparse Communication

@VukRosic99: GLM 5.2 post-training code is OPEN SOURCE (slime) Megatron-LM trains. SGLang generates the rollouts. A single data buff…

DisagMoE: Computation-Communication overlapped MoE Training via Disaggregated AF-Pipe Parallelism

Submit Feedback