cutlass

#cutlass

Moonshot 开源 FlashKDA：面向 Kimi Delta Attention 的 CUTLASS 内核，H20 上最高比 Triton 基线快 2.22 倍

Reddit r/LocalLLaMA ↗ · 2026-04-22

MoonshotAI 发布 FlashKDA，开源 CUTLASS 内核实现 Kimi Delta Attention，在 H20 GPU 上相较 Triton 最高提速 2.22 倍。

0 人收藏 0 人点赞

#cutlass

X AI KOLs Following ↗ · 2026-04-21

月之暗面开源 FlashKDA，基于 CUTLASS 的 Kimi Delta Attention 核实现，在 H20 GPU 上预填充速度提升 1.72–2.22 倍。

0 人收藏 0 人点赞

#cutlass

Reddit r/MachineLearning ↗ · 2026-04-20

讨论GPU内核工程从C++ CuTe/CUTLASS向NVIDIA基于Python的CuTeDSL的转变，质疑新工程师是应该学习遗留的C++模板，还是优先考虑为LLM推理工作而兴起的新技术栈。

0 人收藏 0 人点赞