megatron-lm

标签

Cards List
#megatron-lm

SCAPE:利用极端稀疏通信实现准确高效的LLM训练

arXiv cs.LG · 昨天 缓存

SCAPE是一种通信高效的分布式优化器,利用一阶矩统计量实现LLM训练的极端稀疏化,在保持准确性的同时将实际训练时间减少高达43.3%。

0 人收藏 0 人点赞
#megatron-lm

@VukRosic99: GLM 5.2 后训练代码已开源 (slime) Megatron-LM 进行训练。SGLang 生成 rollout。单数据缓冲…

X AI KOLs Timeline · 6天前 缓存

GLM 5.2 后训练代码已开源,使用 Megatron-LM 进行训练,SGLang 生成 rollout,形成一个持续强化学习循环,权重同步。

0 人收藏 0 人点赞
#megatron-lm

DisagMoE:通过解耦 AF-Pipe 并行实现计算与通信重叠的 MoE 训练

arXiv cs.LG · 2026-05-13 缓存

本文介绍了 DisagMoE,一种 MoE 训练系统,通过将注意力层和前馈网络(FFN)层解耦到不同的 GPU 组来优化计算与通信的重叠。该系统基于 Megatron-LM 实现,通过解决节点间通信瓶颈,在 H800 集群上实现了高达 1.8 倍的加速。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈