@Kimi_Moonshot：我们开源 FlashKDA——基于 CUTLASS 的高性能 Kimi Delta Attention 核实现，预填充速度在 H20 上提升 1.72–2.22 倍

X AI KOLs Following 2026/04/21 15:12 工具

摘要

月之暗面开源 FlashKDA，基于 CUTLASS 的 Kimi Delta Attention 核实现，在 H20 GPU 上预填充速度提升 1.72–2.22 倍。

我们开源 FlashKDA——基于 CUTLASS 的高性能 Kimi Delta Attention 核实现。在 H20 上相比 flash-linear-attention 基线，预填充速度提升 1.72–2.22 倍，可作为 flash-linear-attention 的即插即用后端。前往 GitHub 探索：

查看原文

相似文章

Moonshot 开源 FlashKDA：面向 Kimi Delta Attention 的 CUTLASS 内核，H20 上最高比 Triton 基线快 2.22 倍

Reddit r/LocalLLaMA

MoonshotAI 发布 FlashKDA，开源 CUTLASS 内核实现 Kimi Delta Attention，在 H20 GPU 上相较 Triton 最高提速 2.22 倍。

@HotAisle：Kimi K2.6 + DFlash：8×MI300X 上 508 tok/s，自回归基线 90 tok/s 提升至 5.6 倍

X AI KOLs Following

Kimi K2.6 搭配 DFlash 推理系统在 8×AMD MI300X 上实现 508 tokens/s，相比 90 tokens/s 基线零质量损失地提升 5.6 倍吞吐。

@Andy_ShuoYang: Flash-KMeans 只是一个开始。今天，Flash-KMeans 团队发布了 FlashLib——一个用于……的 GPU 库。

X AI KOLs Following

Flash-KMeans 团队发布了 FlashLib，这是一个面向经典机器学习算子的 GPU 库，在 Hopper GPU 上相比 cuML 可实现高达 208 倍的加速，专注于为智能体 AI 工作负载提供快速、可预测的性能。

@hamzaelshafie: 新深度博客文章：《剖析ThunderKittens：高性能AI内核的紧凑型DSL解剖》这篇帖子……

X AI KOLs Following

一篇详细分析ThunderKittens的博客文章，ThunderKittens是用于高性能AI内核的紧凑型DSL。文章包括从底向上的抽象分析，以及一个实现非因果注意力预填充内核的基准测试，该内核比FlashAttention-2快约1.55倍，与FlashAttention-3性能相当。

@AdinaYakup: Kimi 2.6 已上线 @huggingface https://huggingface.co/moonshotai/Kimi-K2.6… 1T MoE / 32B 激活 / 256K 上下文…

X AI KOLs Following

Moonshot AI 发布 Kimi 2.6：1 万亿参数 MoE 模型，激活 320 亿，上下文 256K，300 子智能体集群，可推理 4,000 步。

相似文章

Moonshot 开源 FlashKDA：面向 Kimi Delta Attention 的 CUTLASS 内核，H20 上最高比 Triton 基线快 2.22 倍

@HotAisle：Kimi K2.6 + DFlash：8×MI300X 上 508 tok/s，自回归基线 90 tok/s 提升至 5.6 倍

@Andy_ShuoYang: Flash-KMeans 只是一个开始。今天，Flash-KMeans 团队发布了 FlashLib——一个用于……的 GPU 库。

@hamzaelshafie: 新深度博客文章：《剖析ThunderKittens：高性能AI内核的紧凑型DSL解剖》这篇帖子……

@AdinaYakup: Kimi 2.6 已上线 @huggingface https://huggingface.co/moonshotai/Kimi-K2.6… 1T MoE / 32B 激活 / 256K 上下文…

提交意见反馈