@levidiamode: GPU编程第158/365天——我觉得我大致理解了FlashAttention 2、3和4前向传播的高级区别…

X AI KOLs Timeline 2026/06/10 10:00 新闻

gpu-programming flash-attention deep-learning algorithm cuda developer-notes

摘要

作者记录了学习GPU编程的进展，重点在于理解FlashAttention 2、3和4前向传播的高级区别，并列出了需要进一步探索的几个底层概念。

GPU编程的第158/365天我觉得我现在大致理解了FlashAttention 2、3和4前向传播的高级区别，但尚未掌握每个算法的底层细节以及反向传播。需要花时间进一步学习：协作线程数组 (cooperative thread arrays)、DSMEM、exp函数的模拟、rowmax/rowsum、warp划分与特化 (warp partitioning and specialization)、WGMMA、异步性 (asynchrony)、生产者/消费者管道 (producer/consumer pipelines) 等。

查看原文

查看缓存全文

缓存时间: 2026/06/10 23:58

GPU 编程的第 158/365 天

我觉得我现在理解了 FlashAttention 2、3 和 4 前向传递的高级区别，但对每个算法的低级细节以及反向传递还没有掌握。

需要花更多时间学习协作线程数组（cooperative thread arrays）、共享内存（DSMEM）、exp 函数的仿真、行最大值/行和（rowmax/rowsum）、warp 分区与特化（warp partitioning and specialization）、WGMMA、异步（asynchrony）、生产者/消费者流水线（producer/consumer pipelines）等概念。

levi (@levidiamode): 157/365 of GPU Programming

另一个对我非常有帮助的 FlashAttention4 资源是 @charles_irl 去年在 GPU Mode 上做的演讲（基本上是《我们逆向工程了 Flash Attention 4》博客文章的讲座版，那篇文章也很棒），内容是关于 FA4 的代码。 https://youtu.be/…

@levidiamode: GPU编程第158/365天——我觉得我大致理解了FlashAttention 2、3和4前向传播的高级区别…

相似文章

@levidiamode: GPU编程第157/365天：另一个对我非常有帮助的FlashAttention4资源是@charles_irl的演讲…

@levidiamode: Day 138/365 of GPU Programming 今年我最喜欢的讲座之一是斯坦福大学的CS336第7讲关于GPU…

@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…

@charles_irl: 去年秋天，我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起，我们一直在…

FlashMemory-DeepSeek-V4：通过前瞻稀疏注意力实现闪电索引超长上下文

提交意见反馈