@charles_irl: 重写并行是一项重大举措,如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

X AI KOLs Following 新闻

摘要

关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。

重写并行是一项重大举措,如果能比我们用CuTe DSL实现的速度更快就好了。 FA4是一个极度依赖瓦片、最大化利用Tensor Core的内核。我们很乐意与@blelbach及其团队一起使用他们的新瓦片编程模型来编写(并反复重写)这样的内核。https://t.co/91fKeCAYYt
查看原文
查看缓存全文

缓存时间: 2026/06/12 10:58

重写并行化是一个大动作,如果能够比使用CuTe DSL更快地进行,那就太好了。FA4是一个非常注重tile、最大化利用Tensor Core的kernel。我们很想用@blelbach和团队的新tile编程模型来编写(并反复重写)这样的kernel。https://t.co/91fKeCAYYt

相似文章