@charles_irl: 给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。推理与训练不…

X AI KOLs Following 工具

摘要

解释推理内核与训练不同,Flash Attention 4 侧重于改变跨KV的并行性并支持小型不规则负载。

给不关心FA4在softmax与MMA负载上分配多少warpgroup的人的tl;dr。 推理与训练不同,因此内核看起来也不同。 两类主要改进: - 改变并行执行的工作(例如跨KV) - 支持小型不规则负载 https://t.co/5qrPZ3Yv4L
查看原文
查看缓存全文

缓存时间: 2026/06/12 10:58

太长不看版:给那些不关心FA4在softmax和MMA负载上分配多少个warpgroups的人。

推理不同于训练,所以内核的形态也不同。

两大改进方向:

  • 改变并行执行的工作(例如跨KV)
  • 支持小而零散的负载 https://t.co/5qrPZ3Yv4L

相似文章

使用CUDA内核重写模型推理:瓶颈不仅仅是GEMM [P]

Reddit r/MachineLearning

作者描述了构建FlashRT的过程,这是一个以CUDA为核心的推理运行时,通过使用C++/CUDA内核重写模型推理路径,来解决小批量/实时工作负载中超出GEMM的瓶颈,在Jetson Thor和RTX 5090上实现了显著的延迟改进。文章讨论了关于精度的经验(FP8有帮助,FP4好坏参半)以及绕过通用运行时进行实时推理的必要性。