标签
Megaprop 是一个新的库,用于跨 GPU 的高效预条件优化,它源自 Megatron 和 TransformerEngine,支持 FSDP 下的 Muon、FOOF、KFAC 和 Newton-Muon,并支持 MuP 以实现宽度和深度的优化。