标签
MoonshotAI 发布 FlashKDA,开源 CUTLASS 内核实现 Kimi Delta Attention,在 H20 GPU 上相较 Triton 最高提速 2.22 倍。
月之暗面开源 FlashKDA,基于 CUTLASS 的 Kimi Delta Attention 核实现,在 H20 GPU 上预填充速度提升 1.72–2.22 倍。
讨论GPU内核工程从C++ CuTe/CUTLASS向NVIDIA基于Python的CuTeDSL的转变,质疑新工程师是应该学习遗留的C++模板,还是优先考虑为LLM推理工作而兴起的新技术栈。