Moonshot 开源 FlashKDA：面向 Kimi Delta Attention 的 CUTLASS 内核，H20 上最高比 Triton 基线快 2.22 倍

Reddit r/LocalLLaMA 2026/04/22 00:15 工具

摘要

MoonshotAI 发布 FlashKDA，开源 CUTLASS 内核实现 Kimi Delta Attention，在 H20 GPU 上相较 Triton 最高提速 2.22 倍。

[github.com/MoonshotAI/FlashKDA](http://github.com/MoonshotAI/FlashKDA) 本周对比了不同路由层对 K2.6 的处理，包括 OpenRouter、Together、Orq，调研时发现了 Moonshot 在 K2.6 发布同期放出的 FlashKDA。目前似乎还没引起太多关注，单独拿出来说，是因为这套内核实现本身就很有意思，和模型发布无关。 **它是什么** 一份基于 CUTLASS 的 C++ 前向内核，对应 Kimi Linear 论文中的线性注意力变体 Kimi Delta Attention（KDA）。通过 FLA 的 PR #852 接入 flash-linear-attention，作为后端插件；已在用 FLA 跑 KDA 模型的项目，可直接把后端切到 FlashKDA。 **H20 上的实测数据**（对比 FLA 现有 Triton 路径） - T=8192、H=96、D=128、定长序列：1.72× - 变长且长度混合：1.95× - 变长但统一 1024×8：2.22× **为什么重要** KDA 这类线性注意力架构理论上随序列长度线性扩展，但只有内核真正硬件友好，承诺才兑现。FLA 的 Triton 实现可用，但针对 Hopper 访存模式调优的 CUTLASS 才能把理论成本模型和实测性能对齐。 **依赖** SM90 及以上、CUDA 12.9+、PyTorch 2.4+，MIT 许可证。 **一点坦诚的局限** 目前只测了前向，且全部跑在 H20（中国特供版 Hopper）。H100 或 Blackwell 的绝对数值会不同，相对加速方向应该一致，但还没人贴数据。好奇有没有人已在 H100 上试过，或者对反向内核何时落地有消息——只有前向的话，训练场景眼下还受限。

查看原文

Moonshot 开源 FlashKDA：面向 Kimi Delta Attention 的 CUTLASS 内核，H20 上最高比 Triton 基线快 2.22 倍

相似文章

@Kimi_Moonshot：我们开源 FlashKDA——基于 CUTLASS 的高性能 Kimi Delta Attention 核实现，预填充速度在 H20 上提升 1.72–2.22 倍

@HotAisle：Kimi K2.6 + DFlash：8×MI300X 上 508 tok/s，自回归基线 90 tok/s 提升至 5.6 倍

@AdinaYakup: Kimi 2.6 已上线 @huggingface https://huggingface.co/moonshotai/Kimi-K2.6… 1T MoE / 32B 激活 / 256K 上下文…

@QuixiAI：@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps（单请求），接下来做吞吐测试

moonshotai/Kimi-K2.7-Code · Hugging Face

提交意见反馈