transformerengine

标签

Cards List
#transformerengine

@plugyawn: 介绍:Megaprop:一个跨GPU高效预条件优化的库!Megaprop 是 Megatron 的一个分支……

X AI KOLs Following · 2026-06-15 缓存

Megaprop 是一个新的库,用于跨 GPU 的高效预条件优化,它源自 Megatron 和 TransformerEngine,支持 FSDP 下的 Muon、FOOF、KFAC 和 Newton-Muon,并支持 MuP 以实现宽度和深度的优化。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈