标签
提出了一种用于随机优化的动量-梯度对齐更新策略MGUP,可实现层内选择性参数更新。该策略能与AdamW、Lion和Muon等优化器无缝集成,在提供理论收敛保证的同时,在大型模型训练任务中展现出卓越性能。
DP-MacAdam 结合了自适应裁剪和自适应动量来改进差分隐私随机梯度下降,无需手动调整裁剪阈值即可获得更好的模型效用。