hyperparameter-transfer

标签

Cards List
#hyperparameter-transfer

解锁门控Delta网络在大规模训练中的特征学习能力

arXiv cs.LG · 3天前 缓存

本文推导了门控Delta网络的μP(最大更新参数化)缩放规则,实现了跨模型宽度的零样本超参数迁移,从而高效支持亚二次方复杂度的大语言模型架构。实验表明,在AdamW和SGD优化器下,该方法均能实现稳定的学习率迁移,而标准参数化方案则无法做到这一点。

0 人收藏 0 人点赞
#hyperparameter-transfer

@maximelabonne:量化超参数迁移与嵌入层学习率的重要性(第一张截图,Kalra 和 Ba…

X AI KOLs Following · 2026-05-22 缓存

本文介绍了一个量化大语言模型中超参数迁移的框架,并发现在使用 AdamW 训练时,μP 相对于 SP 的优势主要源于提高了嵌入层学习率。此外,还探讨了权重衰减及其他因素的影响。

0 人收藏 0 人点赞
#hyperparameter-transfer

GQA-{\mu}P: 群组查询注意力的最大参数化更新

arXiv cs.LG · 2026-05-18 缓存

本文将最大更新参数化(μP)框架扩展到群组查询注意力(GQA),推导出跨模型架构的超参数迁移的缩放定律。它引入了用于特征学习的谱范数条件,并解决了GQA中低秩权重矩阵的问题。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈