标签
本文研究了固定块稀疏因果注意力中序列局部性与注意力图可达性之间的不匹配,形式化了边界伪影,并提出了诊断覆盖函数和一种名为边界桥注意力的最小修复方法。
Llama Surgery 将学习到的块稀疏注意力拓扑注入预训练的 Llama 3.1 8B 中,无需从头重新训练,使用带有 Gumbel-Softmax 路由、温度退火和直通估计器的动态拓扑路由器以避免梯度崩溃,实现稳定收敛和连贯输出。
本文介绍了动态超度量注意力(Dynamic Ultrametric Attention),这是一个框架,其中Transformer在训练期间学习每头块稀疏路由拓扑,然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上,与密集注意力相比,实现了高达28倍的加速和98.4%的内存减少。
OpenAI 发布 block-sparse GPU kernels,这是一款用于在 GPU 上进行高效稀疏矩阵乘法的工具,可以减少神经网络操作的计算量和内存占用。