sub-quadratic-architectures

#sub-quadratic-architectures

解锁门控Delta网络在大规模训练中的特征学习能力

arXiv cs.LG ↗ · 3天前缓存

本文推导了门控Delta网络的μP（最大更新参数化）缩放规则，实现了跨模型宽度的零样本超参数迁移，从而高效支持亚二次方复杂度的大语言模型架构。实验表明，在AdamW和SGD优化器下，该方法均能实现稳定的学习率迁移，而标准参数化方案则无法做到这一点。

0 人收藏 0 人点赞