megatron-lm

#megatron-lm

SCAPE：利用极端稀疏通信实现准确高效的LLM训练

arXiv cs.LG ↗ · 昨天缓存

SCAPE是一种通信高效的分布式优化器，利用一阶矩统计量实现LLM训练的极端稀疏化，在保持准确性的同时将实际训练时间减少高达43.3%。

0 人收藏 0 人点赞

#megatron-lm

X AI KOLs Timeline ↗ · 2026-06-27 缓存

GLM 5.2 后训练代码已开源，使用 Megatron-LM 进行训练，SGLang 生成 rollout，形成一个持续强化学习循环，权重同步。

0 人收藏 0 人点赞

#megatron-lm

arXiv cs.LG ↗ · 2026-05-13 缓存

本文介绍了 DisagMoE，一种 MoE 训练系统，通过将注意力层和前馈网络（FFN）层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现，通过解决节点间通信瓶颈，在 H800 集群上实现了高达 1.8 倍的加速。

0 人收藏 0 人点赞