标签
详细剖析了NVIDIA GPU编程从Volta到Blackwell的演变,重点突出了从同步线程模型到异步数据流的转变以及喂饱张量核心的挑战。文章讨论了TMA、TMEM和tcgen05 MMA等新硬件特性,并展示了FlashAttention-3和FlashMLA等现代内核如何利用这些变化实现更高利用率。