标签
引入重复隐式残差(DLR),这是一种仅训练、无参数的插件,用于低秩预训练,可提升从60M到7B参数的LLaMA模型的困惑度,并且训练后可折叠到模型中,推理成本为零。
Prism Transformer 用渐进式头调度替代了统一的多头注意力机制,该调度在层间逐步增加头的数量,从而在不增加参数或计算量的情况下实现从局部到全局的层级结构。在124M、354M和757M三个模型规模上,它在语言建模和零样本基准测试中始终优于标准Transformer。