Moonshot 开源 FlashKDA:面向 Kimi Delta Attention 的 CUTLASS 内核,H20 上最高比 Triton 基线快 2.22 倍
摘要
MoonshotAI 发布 FlashKDA,开源 CUTLASS 内核实现 Kimi Delta Attention,在 H20 GPU 上相较 Triton 最高提速 2.22 倍。
[github.com/MoonshotAI/FlashKDA](http://github.com/MoonshotAI/FlashKDA) 本周对比了不同路由层对 K2.6 的处理,包括 OpenRouter、Together、Orq,调研时发现了 Moonshot 在 K2.6 发布同期放出的 FlashKDA。目前似乎还没引起太多关注,单独拿出来说,是因为这套内核实现本身就很有意思,和模型发布无关。
**它是什么**
一份基于 CUTLASS 的 C++ 前向内核,对应 Kimi Linear 论文中的线性注意力变体 Kimi Delta Attention(KDA)。通过 FLA 的 PR #852 接入 flash-linear-attention,作为后端插件;已在用 FLA 跑 KDA 模型的项目,可直接把后端切到 FlashKDA。
**H20 上的实测数据**(对比 FLA 现有 Triton 路径)
- T=8192、H=96、D=128、定长序列:1.72×
- 变长且长度混合:1.95×
- 变长但统一 1024×8:2.22×
**为什么重要**
KDA 这类线性注意力架构理论上随序列长度线性扩展,但只有内核真正硬件友好,承诺才兑现。FLA 的 Triton 实现可用,但针对 Hopper 访存模式调优的 CUTLASS 才能把理论成本模型和实测性能对齐。
**依赖**
SM90 及以上、CUDA 12.9+、PyTorch 2.4+,MIT 许可证。
**一点坦诚的局限**
目前只测了前向,且全部跑在 H20(中国特供版 Hopper)。H100 或 Blackwell 的绝对数值会不同,相对加速方向应该一致,但还没人贴数据。好奇有没有人已在 H100 上试过,或者对反向内核何时落地有消息——只有前向的话,训练场景眼下还受限。
相似文章
@Kimi_Moonshot:我们开源 FlashKDA——基于 CUTLASS 的高性能 Kimi Delta Attention 核实现,预填充速度在 H20 上提升 1.72–2.22 倍
月之暗面开源 FlashKDA,基于 CUTLASS 的 Kimi Delta Attention 核实现,在 H20 GPU 上预填充速度提升 1.72–2.22 倍。
@HotAisle:Kimi K2.6 + DFlash:8×MI300X 上 508 tok/s,自回归基线 90 tok/s 提升至 5.6 倍
Kimi K2.6 搭配 DFlash 推理系统在 8×AMD MI300X 上实现 508 tokens/s,相比 90 tokens/s 基线零质量损失地提升 5.6 倍吞吐。
@AdinaYakup: Kimi 2.6 已上线 @huggingface https://huggingface.co/moonshotai/Kimi-K2.6… 1T MoE / 32B 激活 / 256K 上下文…
Moonshot AI 发布 Kimi 2.6:1 万亿参数 MoE 模型,激活 320 亿,上下文 256K,300 子智能体集群,可推理 4,000 步。
@QuixiAI:@Kimi_Moonshot K2.6 在我的 mi300x 上跑出了 56 tps(单请求),接下来做吞吐测试
Kimi K2.6 在单张 MI300X GPU 上达到 56 token/s,用户计划进一步测试整体吞吐。
moonshotai/Kimi-K2.7-Code · Hugging Face
Moonshot AI 发布了 Kimi K2.7 Code,这是一个专注于编码和智能体任务的 1T 参数混合专家模型,具有改进的 token 效率,并在与 GPT-5.5 和 Claude Opus 4.8 的对比中取得了强劲的基准测试结果。