@levidiamode: GPU编程第158/365天——我觉得我大致理解了FlashAttention 2、3和4前向传播的高级区别…
摘要
作者记录了学习GPU编程的进展,重点在于理解FlashAttention 2、3和4前向传播的高级区别,并列出了需要进一步探索的几个底层概念。
查看缓存全文
缓存时间: 2026/06/10 23:58
GPU 编程的第 158/365 天
我觉得我现在理解了 FlashAttention 2、3 和 4 前向传递的高级区别,但对每个算法的低级细节以及反向传递还没有掌握。
需要花更多时间学习协作线程数组(cooperative thread arrays)、共享内存(DSMEM)、exp 函数的仿真、行最大值/行和(rowmax/rowsum)、warp 分区与特化(warp partitioning and specialization)、WGMMA、异步(asynchrony)、生产者/消费者流水线(producer/consumer pipelines)等概念。
levi (@levidiamode): 157/365 of GPU Programming
另一个对我非常有帮助的 FlashAttention4 资源是 @charles_irl 去年在 GPU Mode 上做的演讲(基本上是《我们逆向工程了 Flash Attention 4》博客文章的讲座版,那篇文章也很棒),内容是关于 FA4 的代码。 https://youtu.be/…
相似文章
@levidiamode: GPU编程第157/365天:另一个对我非常有帮助的FlashAttention4资源是@charles_irl的演讲…
一个每日GPU编程帖子重点介绍了Charles_irl的演讲,该演讲在论文发布前逆向工程了FlashAttention4代码,并赞扬了Modal团队对代码的深入剖析和对前向传播的合理推断。
@levidiamode: Day 138/365 of GPU Programming 今年我最喜欢的讲座之一是斯坦福大学的CS336第7讲关于GPU…
一位学习者分享了对斯坦福大学CS336第7讲关于GPU并行性的热情,该讲座涵盖了基本操作,并将其连接到多GPU设置以及张量并行、数据并行和流水线并行等技术。
@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…
一条推文讨论了两种agentic GPU内核优化系统:@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents,两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。
@charles_irl: 去年秋天,我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起,我们一直在…
一篇博客文章详细介绍了对FlashAttention-4的贡献,通过调整并行策略和支持不规则内存访问,以提升其在大型语言模型推理中的性能,特别是针对解码密集型工作负载。
FlashMemory-DeepSeek-V4:通过前瞻稀疏注意力实现闪电索引超长上下文
提出在DeepSeek-V4上结合神经记忆索引器的前瞻稀疏注意力,将GPU内存使用降至全上下文基线的约13.5%,同时保持或略微提升准确率。