@PyTorch: 关于教程的更多详情 https://pldi26.sigplan.org/details/pldi-2026-tutorials/1/Writing-Performance-Portable-K…

X AI KOLs Following 事件

摘要

Helion 是一个 Python 领域特定语言(DSL),可编译为优化的 Triton 代码,用于实现性能可移植的 GPU 内核。本教程将在 PLDI 2026 上介绍 Helion 的架构、自动调优以及 CuteDSL 后端。

关于教程的更多详情 https://pldi26.sigplan.org/details/pldi-2026-tutorials/1/Writing-Performance-Portable-Kernels-Simplified-with-Helion…
查看原文
查看缓存全文

缓存时间: 2026/06/05 21:20

关于本教程的更多详细信息,请访问 https://pldi26.sigplan.org/details/pldi-2026-tutorials/1/Writing-Performance-Portable-Kernels-Simplified-with-Helion…


使用 Helion 简化编写性能可移植内核(PLDI 2026 - PLDI 教程) - PLDI 2026

来源:https://pldi26.sigplan.org/details/pldi-2026-tutorials/1/Writing-Performance-Portable-Kernels-Simplified-with-Helion

此计划为暂定,可能会有变动。

摘要

现代机器学习高度依赖自定义内核来实现性能,这些内核通常使用硬件特定语言编写,从而造成技术债务。Helion 通过将高级 Python 领域特定语言(DSL)编译为优化的 Triton 代码来解决这一问题,自动处理底层细节和硬件特定的调优。借助类似 PyTorch 的语法和自动调优引擎,Helion 在显著减少开发工作量的同时,提供快速且可移植的性能。Helion 是开源的,代码仓库位于 https://github.com/pytorch/helion。本教程为期 3 小时,将通过一系列讲解和演示来介绍 Helion。

本教程将通过一系列讲解、演示和动手实验来介绍 Helion。

  1. Helion 简介(35 分钟):我们将概述 Helion,包括其背后的动机、编程模型、整体设计架构以及各种使用场景。
  2. 编译器架构与 TorchInductor 集成(35 分钟):Helion 编译器架构逐步将 Python 函数降级为高度优化的 Triton 代码,并以 TorchInductor 作为其后端。此编译流程的关键阶段包括 Python AST 解析、类型传播、设备 IR 下移、一系列编译器优化通道,最后是代码生成。我们将详细介绍 Helion 与 TorchInductor 之间的集成,解释该接口如何使 Helion 能够针对 GPU 和非 GPU 硬件,以及用户如何整合自己的自定义后端。
  3. 休息 30 分钟:(为下一节动手实验设置计算环境的时间)
  4. Helion 中的自动调优(50 分钟):Helion 的一个关键特性是其可扩展的自动调优框架,该框架探索庞大的配置空间,一个 Helion 内核可以映射到数千个 Triton 内核。在本环节中,我们将详细介绍 Helion 探索的配置空间,说明不同配置如何映射到 Triton 代码,并审视 Helion 采用的各种搜索策略,例如无似然贝叶斯优化和大语言模型引导的自动调优。与会者还将有机会亲身体验对 Helion 内核进行自动调优。
  5. 针对顶级 NVIDIA 性能的 CuteDSL 后端(30 分钟):在本环节中,我们将展示在 NVIDIA GPU 上实现的尖端性能,这得益于我们持续构建 Helion 中 CuteDSL 后端的努力。我们还将展示推动这些进展的智能体开发工作流。

此计划为暂定,可能会有变动。

相似文章