@charles_irl: 给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。推理与训练不…

X AI KOLs Following 2026/06/11 19:04 工具

摘要

解释推理内核与训练不同，Flash Attention 4 侧重于改变跨KV的并行性并支持小型不规则负载。

给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。推理与训练不同，因此内核看起来也不同。两类主要改进： - 改变并行执行的工作（例如跨KV） - 支持小型不规则负载 https://t.co/5qrPZ3Yv4L

查看原文

查看缓存全文

缓存时间: 2026/06/12 10:58

太长不看版：给那些不关心FA4在softmax和MMA负载上分配多少个warpgroups的人。

推理不同于训练，所以内核的形态也不同。

两大改进方向：

改变并行执行的工作（例如跨KV）
支持小而零散的负载 https://t.co/5qrPZ3Yv4L

相似文章

@charles_irl: 去年秋天，我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起，我们一直在…

X AI KOLs Following

一篇博客文章详细介绍了对FlashAttention-4的贡献，通过调整并行策略和支持不规则内存访问，以提升其在大型语言模型推理中的性能，特别是针对解码密集型工作负载。

@levidiamode: GPU编程第158/365天——我觉得我大致理解了FlashAttention 2、3和4前向传播的高级区别…

X AI KOLs Timeline

作者记录了学习GPU编程的进展，重点在于理解FlashAttention 2、3和4前向传播的高级区别，并列出了需要进一步探索的几个底层概念。

@charles_irl: 重写并行是一项重大举措，如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

X AI KOLs Following

关于使用CuTe DSL和瓦片编程模型重写并行性以提升FA4 (FlashAttention 4) 内核性能的讨论。

@charles_irl: 推理并非一切，但它确实需要一个新的技术栈——不是 Kubernetes，也不是 SLURM。在 @modal，我们深入探索构建…

X AI KOLs Following

Modal 工程师详细介绍了他们实现真正无服务器 GPU 用于 AI 推理的方法，结合了云缓冲区、自定义内容寻址文件系统以及 CPU/GPU 检查点/恢复，从而在几十秒内（而不是几分钟）扩展副本。

使用CUDA内核重写模型推理：瓶颈不仅仅是GEMM [P]

Reddit r/MachineLearning

作者描述了构建FlashRT的过程，这是一个以CUDA为核心的推理运行时，通过使用C++/CUDA内核重写模型推理路径，来解决小批量/实时工作负载中超出GEMM的瓶颈，在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验（FP8有帮助，FP4好坏参半）以及绕过通用运行时进行实时推理的必要性。

相似文章

@charles_irl: 去年秋天，我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起，我们一直在…

@levidiamode: GPU编程第158/365天——我觉得我大致理解了FlashAttention 2、3和4前向传播的高级区别…

@charles_irl: 重写并行是一项重大举措，如果能比我们用CuTe DSL实现的速度更快就好了。FA4是一个非常…

@charles_irl: 推理并非一切，但它确实需要一个新的技术栈——不是 Kubernetes，也不是 SLURM。在 @modal，我们深入探索构建…

使用CUDA内核重写模型推理：瓶颈不仅仅是GEMM [P]

提交意见反馈