标签
本篇博文继续 PyTorch 性能分析系列内容,探讨 nn.Linear、MLP 块以及使用 Triton 内核的融合技术,以优化性能。
一份关于学习AI推理引擎内部机制的详细指南,涵盖vLLM和SGLang等服务引擎、使用Triton和CUTLASS的低层GPU内核编程,以及一系列旨在培养实践能力的小型项目。
Helion 是一个 Python 领域特定语言(DSL),可编译为优化的 Triton 代码,用于实现性能可移植的 GPU 内核。本教程将在 PLDI 2026 上介绍 Helion 的架构、自动调优以及 CuteDSL 后端。
Meta 开源了 TLX Block Attention,这是一个 warp 特化的 Triton 内核,在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速,与旋转嵌入融合时加速可达 3.5 倍。
FPSan是一个Triton编译器pass,通过用整数运算替换浮点运算来实现浮点程序代数等价性的验证,其正确性依赖于Schanuel猜想。
KernelBench-X是一个用于评估LLM生成GPU内核的新基准,揭示了任务结构对正确性的影响大于方法设计,且正确性并不保证硬件效率。
来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。