@PyTorch: 关于教程的更多详情 https://pldi26.sigplan.org/details/pldi-2026-tutorials/1/Writing-Performance-Portable-K…
摘要
Helion 是一个 Python 领域特定语言(DSL),可编译为优化的 Triton 代码,用于实现性能可移植的 GPU 内核。本教程将在 PLDI 2026 上介绍 Helion 的架构、自动调优以及 CuteDSL 后端。
查看缓存全文
缓存时间: 2026/06/05 21:20
关于本教程的更多详细信息,请访问 https://pldi26.sigplan.org/details/pldi-2026-tutorials/1/Writing-Performance-Portable-Kernels-Simplified-with-Helion…
使用 Helion 简化编写性能可移植内核(PLDI 2026 - PLDI 教程) - PLDI 2026
来源:https://pldi26.sigplan.org/details/pldi-2026-tutorials/1/Writing-Performance-Portable-Kernels-Simplified-with-Helion
此计划为暂定,可能会有变动。
摘要
现代机器学习高度依赖自定义内核来实现性能,这些内核通常使用硬件特定语言编写,从而造成技术债务。Helion 通过将高级 Python 领域特定语言(DSL)编译为优化的 Triton 代码来解决这一问题,自动处理底层细节和硬件特定的调优。借助类似 PyTorch 的语法和自动调优引擎,Helion 在显著减少开发工作量的同时,提供快速且可移植的性能。Helion 是开源的,代码仓库位于 https://github.com/pytorch/helion。本教程为期 3 小时,将通过一系列讲解和演示来介绍 Helion。
本教程将通过一系列讲解、演示和动手实验来介绍 Helion。
- Helion 简介(35 分钟):我们将概述 Helion,包括其背后的动机、编程模型、整体设计架构以及各种使用场景。
- 编译器架构与 TorchInductor 集成(35 分钟):Helion 编译器架构逐步将 Python 函数降级为高度优化的 Triton 代码,并以 TorchInductor 作为其后端。此编译流程的关键阶段包括 Python AST 解析、类型传播、设备 IR 下移、一系列编译器优化通道,最后是代码生成。我们将详细介绍 Helion 与 TorchInductor 之间的集成,解释该接口如何使 Helion 能够针对 GPU 和非 GPU 硬件,以及用户如何整合自己的自定义后端。
- 休息 30 分钟:(为下一节动手实验设置计算环境的时间)
- Helion 中的自动调优(50 分钟):Helion 的一个关键特性是其可扩展的自动调优框架,该框架探索庞大的配置空间,一个 Helion 内核可以映射到数千个 Triton 内核。在本环节中,我们将详细介绍 Helion 探索的配置空间,说明不同配置如何映射到 Triton 代码,并审视 Helion 采用的各种搜索策略,例如无似然贝叶斯优化和大语言模型引导的自动调优。与会者还将有机会亲身体验对 Helion 内核进行自动调优。
- 针对顶级 NVIDIA 性能的 CuteDSL 后端(30 分钟):在本环节中,我们将展示在 NVIDIA GPU 上实现的尖端性能,这得益于我们持续构建 Helion 中 CuteDSL 后端的努力。我们还将展示推动这些进展的智能体开发工作流。
此计划为暂定,可能会有变动。
相似文章
@PyTorch: 6月15日(周一),PyTorch Foundation 项目 Helion 将在 PLDI 2026(第47届 ACM SIGPLAN 会议…)上举办 Helion DSL 教程。
PyTorch Foundation 项目 Helion 将在丹佛举办的 PLDI 2026 上开设 Helion DSL 教程。这是一个互动式工作坊,面向编译器研究人员、内核作者和机器学习系统工程师,参与者将编写、自动调优并运行真实的 Helion 内核。
@leloykun:[进行中] 关于 Lean4-to-TileLang 张量程序超级优化器的博文:
一篇技术博文介绍了一种 Lean4-to-TileLang 张量程序超级优化器,能自动生成优化的 GPU/TPU 内核与超参数缩放规律,展示了相较 torch.compile 的性能提升。
@charles_irl: GPU 术语表新增文章:CuTe DSL、CUTLASS 和 CuTe——用于编写一些最高性能…
GPU 术语表新增文章,涵盖 CuTe DSL、CUTLASS 和 CuTe——这些工具用于在数据中心 GPU 上编写高性能 GPU 内核,并附有 Python 示例。
@ManningBooks: PyTorch 能带你走得很远,但当性能成为问题时,了解 GPU 层面的情况就至关重要…
为 Elliot Arledge 所著的《CUDA for Deep Learning》一书做的推广帖子,提供第一章总结视频,讲解 GPU 性能、CUDA 编程模型,以及何时需要编写自定义 CUDA 内核。
C++ CuTe / CUTLASS vs CuTeDSL (Python) in 2026 — 新的GPU内核/LLM推理工程师到底应该学什么?[D]
讨论GPU内核工程从C++ CuTe/CUTLASS向NVIDIA基于Python的CuTeDSL的转变,质疑新工程师是应该学习遗留的C++模板,还是优先考虑为LLM推理工作而兴起的新技术栈。