triton-kernel

标签

Cards List
#triton-kernel

学习跳跃块:自我发现的超度量路由用于硬件加速稀疏注意力

Reddit r/artificial · 5天前

本文介绍了动态超度量注意力(Dynamic Ultrametric Attention),这是一个框架,其中Transformer在训练期间学习每头块稀疏路由拓扑,然后在推理时将这些拓扑卸载到自定义的Triton块稀疏内核上,与密集注意力相比,实现了高达28倍的加速和98.4%的内存减少。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈