标签
本文介绍了Decompose-K技术,用于加速瘦高大K矩阵乘法,通过将K维度分割成块,执行批量矩阵乘法,并求和部分结果。还提供了PyTorch实现和基准测试,显示对于形状不佳的矩阵乘法,相比标准torch.compile有显著加速。
Recursive的自动AI研究系统通过在无需任务特定适配的情况下自动化研究循环,在NanoChat、NanoGPT Speedrun和GPU内核基准测试上达到了最先进的成果,并开源了相关工件以供进一步检验。
一条推文展示了一个CuTe DSL内核示例,该示例使用布局来表达转置,是FlashAttention-4内核的一部分。
Meta 开源了 TLX Block Attention,这是一个 warp 特化的 Triton 内核,在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速,与旋转嵌入融合时加速可达 3.5 倍。
CODA 引入了一种 GPU 内核抽象,将 transformer 计算重写为 GEMM-plus-epilogue 程序,减少内存受限操作,提高训练效率。
MoonshotAI 发布 FlashKDA,开源 CUTLASS 内核实现 Kimi Delta Attention,在 H20 GPU 上相较 Triton 最高提速 2.22 倍。