@Kimi_Moonshot:我们开源 FlashKDA——基于 CUTLASS 的高性能 Kimi Delta Attention 核实现,预填充速度在 H20 上提升 1.72–2.22 倍
摘要
月之暗面开源 FlashKDA,基于 CUTLASS 的 Kimi Delta Attention 核实现,在 H20 GPU 上预填充速度提升 1.72–2.22 倍。
我们开源 FlashKDA——基于 CUTLASS 的高性能 Kimi Delta Attention 核实现。在 H20 上相比 flash-linear-attention 基线,预填充速度提升 1.72–2.22 倍,可作为 flash-linear-attention 的即插即用后端。前往 GitHub 探索:
相似文章
Moonshot 开源 FlashKDA:面向 Kimi Delta Attention 的 CUTLASS 内核,H20 上最高比 Triton 基线快 2.22 倍
MoonshotAI 发布 FlashKDA,开源 CUTLASS 内核实现 Kimi Delta Attention,在 H20 GPU 上相较 Triton 最高提速 2.22 倍。
@HotAisle:Kimi K2.6 + DFlash:8×MI300X 上 508 tok/s,自回归基线 90 tok/s 提升至 5.6 倍
Kimi K2.6 搭配 DFlash 推理系统在 8×AMD MI300X 上实现 508 tokens/s,相比 90 tokens/s 基线零质量损失地提升 5.6 倍吞吐。
@Andy_ShuoYang: Flash-KMeans 只是一个开始。今天,Flash-KMeans 团队发布了 FlashLib——一个用于……的 GPU 库。
Flash-KMeans 团队发布了 FlashLib,这是一个面向经典机器学习算子的 GPU 库,在 Hopper GPU 上相比 cuML 可实现高达 208 倍的加速,专注于为智能体 AI 工作负载提供快速、可预测的性能。
@hamzaelshafie: 新深度博客文章:《剖析ThunderKittens:高性能AI内核的紧凑型DSL解剖》这篇帖子……
一篇详细分析ThunderKittens的博客文章,ThunderKittens是用于高性能AI内核的紧凑型DSL。文章包括从底向上的抽象分析,以及一个实现非因果注意力预填充内核的基准测试,该内核比FlashAttention-2快约1.55倍,与FlashAttention-3性能相当。
@AdinaYakup: Kimi 2.6 已上线 @huggingface https://huggingface.co/moonshotai/Kimi-K2.6… 1T MoE / 32B 激活 / 256K 上下文…
Moonshot AI 发布 Kimi 2.6:1 万亿参数 MoE 模型,激活 320 亿,上下文 256K,300 子智能体集群,可推理 4,000 步。