zero-overhead

#zero-overhead

DLR: 零推理成本的隐式残差用于低秩预训练

arXiv cs.LG ↗ · 5天前缓存

引入重复隐式残差（DLR），这是一种仅训练、无参数的插件，用于低秩预训练，可提升从60M到7B参数的LLaMA模型的困惑度，并且训练后可折叠到模型中，推理成本为零。

0 人收藏 0 人点赞

#zero-overhead

arXiv cs.LG ↗ · 6天前缓存

Prism Transformer 用渐进式头调度替代了统一的多头注意力机制，该调度在层间逐步增加头的数量，从而在不增加参数或计算量的情况下实现从局部到全局的层级结构。在124M、354M和757M三个模型规模上，它在语言建模和零样本基准测试中始终优于标准Transformer。

0 人收藏 0 人点赞