@h100envy: Meta的PyTorch核心工程师将CUDA内核编写变成了一项13分钟的运动——比1500美元的GPU编程课程还要好……

X AI KOLs Timeline 工具

摘要

Meta的一位PyTorch核心工程师展示了一个快速的CUDA内核优化循环,其性能优于昂贵的训练营,获胜代码通过KernelBot竞赛合并到了PyTorch中。

Meta的PyTorch核心工程师将CUDA内核编写变成了一项13分钟的运动——比1500美元的GPU编程训练营还要好。 分析内核 -> 找到瓶颈 -> 重写 -> 基准测试 -> 将获胜代码合并到PyTorch。 正是这个循环,让开源社区现在能够击败手工调优的供应商内核。 GPU MODE社区 + KernelBot竞赛 + 获胜内核合并到框架中——这就是整套方案。 观看视频,然后复制下面的循环。
查看原文
查看缓存全文

缓存时间: 2026/06/30 23:48

Meta的PyTorch核心工程师在13分钟内将CUDA内核编写变成了一项运动——比售价1500美元的GPU编程训练营还要出色。

剖析内核 -> 找到瓶颈 -> 重写 -> 基准测试 -> 将优胜代码合并到PyTorch。

正是这个循环让开放社区如今超越了手工调优的供应商内核。

GPU MODE社区 + KernelBot竞赛 + 优胜内核合并到框架中——这就是完整的技术栈。

观看视频,然后复制下面的循环。

相似文章

一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]

Reddit r/MachineLearning

作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。