triton-kernel

#triton-kernel

学习跳跃块：自我发现的超度量路由用于硬件加速稀疏注意力

Reddit r/artificial ↗ · 5天前

本文介绍了动态超度量注意力（Dynamic Ultrametric Attention），这是一个框架，其中Transformer在训练期间学习每头块稀疏路由拓扑，然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上，与密集注意力相比，实现了高达28倍的加速和98.4%的内存减少。

0 人收藏 0 人点赞