gradient-alignment

标签

Cards List
#gradient-alignment

MGUP:一种用于随机优化的动量-梯度对齐更新策略

arXiv cs.LG · 2026-06-17 缓存

提出了一种用于随机优化的动量-梯度对齐更新策略MGUP,可实现层内选择性参数更新。该策略能与AdamW、Lion和Muon等优化器无缝集成,在提供理论收敛保证的同时,在大型模型训练任务中展现出卓越性能。

0 人收藏 0 人点赞
#gradient-alignment

GRASP: 梯度对齐顺序参数迁移——面向内存高效的多源学习

arXiv cs.LG · 2026-06-16 缓存

GRASP提出一种多源迁移学习方法,顺序合并源模型到单个目标模型,内存占用恒定O(1),使用基于梯度的参数对齐避免负迁移。实验表明其性能优于集成方法且内存效率更高。

0 人收藏 0 人点赞
#gradient-alignment

揭秘同策略蒸馏:其益处、危害及原因

Hugging Face Daily Papers · 2026-05-11 缓存

本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈