@PyTorch: 自动调优是Helion的支柱,Helion是PyTorch用于性能可移植ML内核的DSL。目前Helion搜索利用…
摘要
本文探讨了使用LLM引导的自动调优来加速PyTorch的Helion DSL中的内核配置搜索,取代了较慢的Likelihood-Free Bayesian Optimization方法。
查看缓存全文
缓存时间: 2026/06/18 18:10
自动调优是 Helion(PyTorch 用于性能可移植 ML 内核的 DSL)的支柱。目前 Helion 的搜索使用无似然贝叶斯优化(LFBO)来寻找性能最优的配置。虽然 LFBO 表现良好,但它需要对每个内核进行数百次编译和基准测试周期。
如果不再盲目开始搜索,而是让 LLM 推理内核并提出配置,会怎么样?
在这篇博客中,我们探讨了 LLM 引导的自动调优如何成为一种实用方法,以生产质量大幅加快内核调优速度。
点击评论区中的链接了解更多信息。
@JongsokC @oguz_ulgen
相似文章
@PyTorch: 关于教程的更多详情 https://pldi26.sigplan.org/details/pldi-2026-tutorials/1/Writing-Performance-Portable-K…
Helion 是一个 Python 领域特定语言(DSL),可编译为优化的 Triton 代码,用于实现性能可移植的 GPU 内核。本教程将在 PLDI 2026 上介绍 Helion 的架构、自动调优以及 CuteDSL 后端。
@PyTorch: 6月15日(周一),PyTorch Foundation 项目 Helion 将在 PLDI 2026(第47届 ACM SIGPLAN 会议…)上举办 Helion DSL 教程。
PyTorch Foundation 项目 Helion 将在丹佛举办的 PLDI 2026 上开设 Helion DSL 教程。这是一个互动式工作坊,面向编译器研究人员、内核作者和机器学习系统工程师,参与者将编写、自动调优并运行真实的 Helion 内核。
@akshay_pachaar:PyTorch Autograd 与 Unsloth Triton 内核对比。UnslothAI 背后的核心工程一直令人印象深刻!它并未……
技术解析:对比 PyTorch 默认的 autograd 与 UnslothAI 使用 OpenAI Triton 语言编写的自定义反向传播内核,以实现更高效的 LLM 微调。
AccelOpt:一种用于AI加速器内核优化的自我改进LLM智能体系统
AccelOpt是一种自我改进的LLM智能体系统,通过迭代生成和优化记忆自主优化AI加速器内核,在AWS Trainium上实现了49%至61%的峰值吞吐量提升,同时比Claude Sonnet 4便宜26倍。
@leloykun:[进行中] 关于 Lean4-to-TileLang 张量程序超级优化器的博文:
一篇技术博文介绍了一种 Lean4-to-TileLang 张量程序超级优化器,能自动生成优化的 GPU/TPU 内核与超参数缩放规律,展示了相较 torch.compile 的性能提升。