spectral

标签

Cards List
#spectral

MuCon: Clipped Muon Updates for LLM Training

arXiv cs.LG · 2026-05-27 缓存

本文介绍了MuCon,一种用于大语言模型训练的裁剪Muon优化器,它应用奇异值裁剪而非完全极化,保留较小的奇异值而仅裁剪最大的奇异值。它探索了避免全SVD的近似方法,包括极坐标/绝对值公式和有理牛顿滤波器,并指出了阈值附近的数值挑战。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈