@charles_irl: 重写并行是一项重大举措,如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…
摘要
关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。
重写并行是一项重大举措,如果能比我们用CuTe DSL实现的速度更快就好了。
FA4是一个极度依赖瓦片、最大化利用Tensor Core的内核。我们很乐意与@blelbach及其团队一起使用他们的新瓦片编程模型来编写(并反复重写)这样的内核。https://t.co/91fKeCAYYt
查看缓存全文
缓存时间: 2026/06/12 10:58
重写并行化是一个大动作,如果能够比使用CuTe DSL更快地进行,那就太好了。FA4是一个非常注重tile、最大化利用Tensor Core的kernel。我们很想用@blelbach和团队的新tile编程模型来编写(并反复重写)这样的kernel。https://t.co/91fKeCAYYt
相似文章
@charles_irl: 去年秋天,我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起,我们一直在…
一篇博客文章详细介绍了对FlashAttention-4的贡献,通过调整并行策略和支持不规则内存访问,以提升其在大型语言模型推理中的性能,特别是针对解码密集型工作负载。
@charles_irl: ^这是CuTe DSL的一个示例,它用于FlashAttention-4内核等。以下是CuTe示例内核…
一条推文展示了一个CuTe DSL内核示例,该示例使用布局来表达转置,是FlashAttention-4内核的一部分。
@hamzaelshafie: 新深度博客文章:《剖析ThunderKittens:高性能AI内核的紧凑型DSL解剖》这篇帖子……
一篇详细分析ThunderKittens的博客文章,ThunderKittens是用于高性能AI内核的紧凑型DSL。文章包括从底向上的抽象分析,以及一个实现非因果注意力预填充内核的基准测试,该内核比FlashAttention-2快约1.55倍,与FlashAttention-3性能相当。
@levidiamode: GPU编程第157/365天:另一个对我非常有帮助的FlashAttention4资源是@charles_irl的演讲…
一个每日GPU编程帖子重点介绍了Charles_irl的演讲,该演讲在论文发布前逆向工程了FlashAttention4代码,并赞扬了Modal团队对代码的深入剖析和对前向传播的合理推断。
@charles_irl: 给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。推理与训练不…
解释推理内核与训练不同,Flash Attention 4 侧重于改变跨KV的并行性并支持小型不规则负载。