newton-schulz

标签

Cards List
#newton-schulz

Gram Newton-Schulz:一种用于Muon的快速、硬件感知的牛顿-舒尔茨算法

Hacker News Top · 6天前 缓存

本文介绍了Gram Newton-Schulz,这是对Muon优化器中使用的牛顿-舒尔茨正交化过程的一种硬件感知优化,能够在保持模型质量的同时显著加速大型语言模型的训练。

0 人收藏 0 人点赞
#newton-schulz

Muon优化器的谱缩放定律

arXiv cs.LG · 2026-06-04 缓存

本文首次系统研究了大语言模型训练过程中Muon优化器动量矩阵奇异值谱的行为规律,发现了在不同模型规模(77M至2.8B参数)下清晰的幂律缩放关系。研究结果为从业者提供了有理论依据、感知层级的Newton–Schulz迭代配置指南,在前沿规模下无需额外计算即可保持正交归一化质量。

0 人收藏 0 人点赞
#newton-schulz

Muon需要多少正交化?

arXiv cs.LG · 2026-06-02 缓存

本文研究了Muon优化器需要多少正交化,提出了一种五步三次牛顿-舒尔茨方案,该方案降低了计算成本,同时在GPT-2 Small和混合MoE/Mamba模型上实现了与更昂贵方法相似的训练质量。

0 人收藏 0 人点赞
#newton-schulz

MuCon: Clipped Muon Updates for LLM Training

arXiv cs.LG · 2026-05-27 缓存

本文介绍了MuCon,一种用于大语言模型训练的裁剪Muon优化器,它应用奇异值裁剪而非完全极化,保留较小的奇异值而仅裁剪最大的奇异值。它探索了避免全SVD的近似方法,包括极坐标/绝对值公式和有理牛顿滤波器,并指出了阈值附近的数值挑战。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈