@charles_irl: 给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。推理与训练不…
摘要
解释推理内核与训练不同,Flash Attention 4 侧重于改变跨KV的并行性并支持小型不规则负载。
给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。
推理与训练不同,因此内核看起来也不同。
两类主要改进:
- 改变并行执行的工作(例如跨KV)
- 支持小型不规则负载 https://t.co/5qrPZ3Yv4L
查看缓存全文
缓存时间: 2026/06/12 10:58
太长不看版:给那些不关心FA4在softmax和MMA负载上分配多少个warpgroups的人。
推理不同于训练,所以内核的形态也不同。
两大改进方向:
- 改变并行执行的工作(例如跨KV)
- 支持小而零散的负载 https://t.co/5qrPZ3Yv4L
相似文章
@charles_irl: 去年秋天,我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起,我们一直在…
一篇博客文章详细介绍了对FlashAttention-4的贡献,通过调整并行策略和支持不规则内存访问,以提升其在大型语言模型推理中的性能,特别是针对解码密集型工作负载。
@levidiamode: GPU编程第158/365天——我觉得我大致理解了FlashAttention 2、3和4前向传播的高级区别…
作者记录了学习GPU编程的进展,重点在于理解FlashAttention 2、3和4前向传播的高级区别,并列出了需要进一步探索的几个底层概念。
@charles_irl: 重写并行是一项重大举措,如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…
关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。
@charles_irl: 推理并非一切,但它确实需要一个新的技术栈——不是 Kubernetes,也不是 SLURM。在 @modal,我们深入探索构建…
Modal 工程师详细介绍了他们实现真正无服务器 GPU 用于 AI 推理的方法,结合了云缓冲区、自定义内容寻址文件系统以及 CPU/GPU 检查点/恢复,从而在几十秒内(而不是几分钟)扩展副本。
使用CUDA内核重写模型推理:瓶颈不仅仅是GEMM [P]
作者描述了构建FlashRT的过程,这是一个以CUDA为核心的推理运行时,通过使用C++/CUDA内核重写模型推理路径,来解决小批量/实时工作负载中超出GEMM的瓶颈,在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验(FP8有帮助,FP4好坏参半)以及绕过通用运行时进行实时推理的必要性。