Moonshot 开源 FlashKDA:面向 Kimi Delta Attention 的 CUTLASS 内核,H20 上最高比 Triton 基线快 2.22 倍

Reddit r/LocalLLaMA 工具

摘要

MoonshotAI 发布 FlashKDA,开源 CUTLASS 内核实现 Kimi Delta Attention,在 H20 GPU 上相较 Triton 最高提速 2.22 倍。

[github.com/MoonshotAI/FlashKDA](http://github.com/MoonshotAI/FlashKDA) 本周对比了不同路由层对 K2.6 的处理,包括 OpenRouter、Together、Orq,调研时发现了 Moonshot 在 K2.6 发布同期放出的 FlashKDA。目前似乎还没引起太多关注,单独拿出来说,是因为这套内核实现本身就很有意思,和模型发布无关。 **它是什么** 一份基于 CUTLASS 的 C++ 前向内核,对应 Kimi Linear 论文中的线性注意力变体 Kimi Delta Attention(KDA)。通过 FLA 的 PR #852 接入 flash-linear-attention,作为后端插件;已在用 FLA 跑 KDA 模型的项目,可直接把后端切到 FlashKDA。 **H20 上的实测数据**(对比 FLA 现有 Triton 路径) - T=8192、H=96、D=128、定长序列:1.72× - 变长且长度混合:1.95× - 变长但统一 1024×8:2.22× **为什么重要** KDA 这类线性注意力架构理论上随序列长度线性扩展,但只有内核真正硬件友好,承诺才兑现。FLA 的 Triton 实现可用,但针对 Hopper 访存模式调优的 CUTLASS 才能把理论成本模型和实测性能对齐。 **依赖** SM90 及以上、CUDA 12.9+、PyTorch 2.4+,MIT 许可证。 **一点坦诚的局限** 目前只测了前向,且全部跑在 H20(中国特供版 Hopper)。H100 或 Blackwell 的绝对数值会不同,相对加速方向应该一致,但还没人贴数据。好奇有没有人已在 H100 上试过,或者对反向内核何时落地有消息——只有前向的话,训练场景眼下还受限。
查看原文

相似文章

moonshotai/Kimi-K2.7-Code · Hugging Face

Reddit r/LocalLLaMA

Moonshot AI 发布了 Kimi K2.7 Code,这是一个专注于编码和智能体任务的 1T 参数混合专家模型,具有改进的 token 效率,并在与 GPT-5.5 和 Claude Opus 4.8 的对比中取得了强劲的基准测试结果。