标签
本文介绍了Gram Newton-Schulz,这是对Muon优化器中使用的牛顿-舒尔茨正交化过程的一种硬件感知优化,能够在保持模型质量的同时显著加速大型语言模型的训练。
本文提出动态上下文正交化(DCO),一种推理时方法,通过将注意力头输出与上下文流形对齐来减少大型语言模型中的幻觉,在Llama-3模型的基准测试中实现了更优的忠实度。
本文研究了Muon优化器需要多少正交化,提出了一种五步三次牛顿-舒尔茨方案,该方案降低了计算成本,同时在GPT-2 Small和混合MoE/Mamba模型上实现了与更昂贵方法相似的训练质量。