@Kimi_Moonshot:我们开源 FlashKDA——基于 CUTLASS 的高性能 Kimi Delta Attention 核实现,预填充速度在 H20 上提升 1.72–2.22 倍

X AI KOLs Following 工具

摘要

月之暗面开源 FlashKDA,基于 CUTLASS 的 Kimi Delta Attention 核实现,在 H20 GPU 上预填充速度提升 1.72–2.22 倍。

我们开源 FlashKDA——基于 CUTLASS 的高性能 Kimi Delta Attention 核实现。在 H20 上相比 flash-linear-attention 基线,预填充速度提升 1.72–2.22 倍,可作为 flash-linear-attention 的即插即用后端。前往 GitHub 探索:
查看原文

相似文章