gradient-alignment

#gradient-alignment

MGUP:一种用于随机优化的动量-梯度对齐更新策略

arXiv cs.LG ↗ · 2026-06-17 缓存

提出了一种用于随机优化的动量-梯度对齐更新策略MGUP，可实现层内选择性参数更新。该策略能与AdamW、Lion和Muon等优化器无缝集成，在提供理论收敛保证的同时，在大型模型训练任务中展现出卓越性能。

0 人收藏 0 人点赞

#gradient-alignment

arXiv cs.LG ↗ · 2026-06-16 缓存

GRASP提出一种多源迁移学习方法，顺序合并源模型到单个目标模型，内存占用恒定O(1)，使用基于梯度的参数对齐避免负迁移。实验表明其性能优于集成方法且内存效率更高。

0 人收藏 0 人点赞

#gradient-alignment

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

本文介绍了一种无需训练的框架，用于分析推理模型在逐token级别上的蒸馏信号。研究揭示，蒸馏引导在错误推理路径上更为有效，且其效果取决于学生模型的能力及任务上下文。

0 人收藏 0 人点赞