@levidiamode: GPU编程第158/365天——我觉得我大致理解了FlashAttention 2、3和4前向传播的高级区别…

X AI KOLs Timeline 新闻

摘要

作者记录了学习GPU编程的进展,重点在于理解FlashAttention 2、3和4前向传播的高级区别,并列出了需要进一步探索的几个底层概念。

GPU编程的第158/365天 我觉得我现在大致理解了FlashAttention 2、3和4前向传播的高级区别,但尚未掌握每个算法的底层细节以及反向传播。 需要花时间进一步学习:协作线程数组 (cooperative thread arrays)、DSMEM、exp函数的模拟、rowmax/rowsum、warp划分与特化 (warp partitioning and specialization)、WGMMA、异步性 (asynchrony)、生产者/消费者管道 (producer/consumer pipelines) 等。
查看原文
查看缓存全文

缓存时间: 2026/06/10 23:58

GPU 编程的第 158/365 天

我觉得我现在理解了 FlashAttention 2、3 和 4 前向传递的高级区别,但对每个算法的低级细节以及反向传递还没有掌握。

需要花更多时间学习协作线程数组(cooperative thread arrays)、共享内存(DSMEM)、exp 函数的仿真、行最大值/行和(rowmax/rowsum)、warp 分区与特化(warp partitioning and specialization)、WGMMA、异步(asynchrony)、生产者/消费者流水线(producer/consumer pipelines)等概念。

levi (@levidiamode): 157/365 of GPU Programming

另一个对我非常有帮助的 FlashAttention4 资源是 @charles_irl 去年在 GPU Mode 上做的演讲(基本上是《我们逆向工程了 Flash Attention 4》博客文章的讲座版,那篇文章也很棒),内容是关于 FA4 的代码。 https://youtu.be/…

相似文章