zero-overhead

标签

Cards List
#zero-overhead

DLR: 零推理成本的隐式残差用于低秩预训练

arXiv cs.LG · 5天前 缓存

引入重复隐式残差(DLR),这是一种仅训练、无参数的插件,用于低秩预训练,可提升从60M到7B参数的LLaMA模型的困惑度,并且训练后可折叠到模型中,推理成本为零。

0 人收藏 0 人点赞
#zero-overhead

Prism Transformer: 渐进式头调度用于层级注意力处理

arXiv cs.LG · 6天前 缓存

Prism Transformer 用渐进式头调度替代了统一的多头注意力机制,该调度在层间逐步增加头的数量,从而在不增加参数或计算量的情况下实现从局部到全局的层级结构。在124M、354M和757M三个模型规模上,它在语言建模和零样本基准测试中始终优于标准Transformer。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈