@charles_irl: 重写并行是一项重大举措，如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

X AI KOLs Following 2026/06/11 19:04 新闻

parallelism cuda tensor-core kernel-programming ai-optimization flash-attention

摘要

关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。

重写并行是一项重大举措，如果能比我们用CuTe DSL实现的速度更快就好了。 FA4是一个极度依赖瓦片、最大化利用Tensor Core的内核。我们很乐意与@blelbach及其团队一起使用他们的新瓦片编程模型来编写（并反复重写）这样的内核。https://t.co/91fKeCAYYt

查看原文

查看缓存全文

缓存时间: 2026/06/12 10:58

重写并行化是一个大动作，如果能够比使用CuTe DSL更快地进行，那就太好了。FA4是一个非常注重tile、最大化利用Tensor Core的kernel。我们很想用@blelbach和团队的新tile编程模型来编写（并反复重写）这样的kernel。https://t.co/91fKeCAYYt

相似文章

@charles_irl: 去年秋天，我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起，我们一直在…

X AI KOLs Following

一篇博客文章详细介绍了对FlashAttention-4的贡献，通过调整并行策略和支持不规则内存访问，以提升其在大型语言模型推理中的性能，特别是针对解码密集型工作负载。

@PatrickToulme: 这个练习让我相信DSL和编译器的未来在很大程度上是代理化的。编程语言和DSL但…

X AI KOLs Timeline

Claude Fable 使用 pyptx DSL 为 NVIDIA B200 编写了一个 FlashAttention 前向内核，其性能与手动调优的 CUTLASS 内核接近，展示了 AI 代理在编译器和 DSL 设计中的潜力。

@ekzhang1：我看着像这个家伙一样写真正的GPU内核的人 :)

X AI KOLs Timeline

AI模型Claude被用于使用pyptx DSL编写FlashAttention前向内核，在NVIDIA B200硬件上实现了与手工调优的FlashAttention-4近乎相同的性能。

@charles_irl: https://x.com/charles_irl/status/2069113412869914944

X AI KOLs Timeline

详细介绍了针对语音克隆模型的W4A4 CUDA内核优化，通过INT4量化和融合LoRA，实现了比FP16快2.6倍的推理速度。

@charles_irl: ^这是CuTe DSL的一个示例，它用于FlashAttention-4内核等。以下是CuTe示例内核…

X AI KOLs Following

一条推文展示了一个CuTe DSL内核示例，该示例使用布局来表达转置，是FlashAttention-4内核的一部分。

提交意见反馈