maximal-update-parameterization

#maximal-update-parameterization

GQA-{\mu}P: The maximal parameterization update for grouped query attention

arXiv cs.LG ↗ · 2026-05-18 Cached

This paper extends the maximal update parameterization (μP) framework to grouped-query attention (GQA), deriving scaling laws for hyperparameter transfer across model architectures. It introduces spectral norm conditions for feature learning and addresses issues with low-rank weight matrices in GQA.

0 favorites 0 likes

maximal-update-parameterization

GQA-{\mu}P: The maximal parameterization update for grouped query attention

Submit Feedback