@h100envy: Meta的PyTorch核心工程师将CUDA内核编写变成了一项13分钟的运动——比1500美元的GPU编程课程还要好……

X AI KOLs Timeline 2026/06/30 18:35 工具

cuda kernel-optimization pytorch open-source gpu-programming competition meta

摘要

Meta的一位PyTorch核心工程师展示了一个快速的CUDA内核优化循环，其性能优于昂贵的训练营，获胜代码通过KernelBot竞赛合并到了PyTorch中。

Meta的PyTorch核心工程师将CUDA内核编写变成了一项13分钟的运动——比1500美元的GPU编程训练营还要好。分析内核 -> 找到瓶颈 -> 重写 -> 基准测试 -> 将获胜代码合并到PyTorch。正是这个循环，让开源社区现在能够击败手工调优的供应商内核。 GPU MODE社区 + KernelBot竞赛 + 获胜内核合并到框架中——这就是整套方案。观看视频，然后复制下面的循环。

查看原文

查看缓存全文

缓存时间: 2026/06/30 23:48

Meta的PyTorch核心工程师在13分钟内将CUDA内核编写变成了一项运动——比售价1500美元的GPU编程训练营还要出色。

剖析内核 -> 找到瓶颈 -> 重写 -> 基准测试 -> 将优胜代码合并到PyTorch。

正是这个循环让开放社区如今超越了手工调优的供应商内核。

GPU MODE社区 + KernelBot竞赛 + 优胜内核合并到框架中——这就是完整的技术栈。

观看视频，然后复制下面的循环。

相似文章

@PyTorch: PyTorch 成员 Meta 刚刚开源了一个 GPU 内核，使注意力在 NVIDIA Blackwell 上加速 2.3 倍。TLX Block Atte…

X AI KOLs Following

Meta 开源了 TLX Block Attention，这是一个 warp 特化的 Triton 内核，在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速，与旋转嵌入融合时加速可达 3.5 倍。

一个可定制的编译器，用于为AI模型生成高效的融合GPU内核 [P]

Reddit r/MachineLearning

作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核，在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。

像人类一样优化CUDA：微剖析工具作为基于LLM的GPU内核优化的专家替代

arXiv cs.LG

KernelPro是一个闭环多智能体系统，利用LLM和微剖析工具自动优化GPU内核代码，在KernelBench上实现了2.42×/4.69×/5.30×的几何平均加速，并在相同速度下实测能耗降低11.6%。

@h100envy: Daniel Han 创建了 Unsloth，这正是半数开源项目能在单张 GPU 而非集群上微调模型的原因。他还……

X AI KOLs Timeline

Daniel Han 构建了 Unsloth，该工具通过重写 GPU 内核，使单张 GPU 的微调速度提升 2 到 3 倍，让众多开源用户无需集群即可训练模型。

@PyTorch：一个运行时，多种GPU架构，零厂商特定模型代码。在这篇博文中，TokenSpeed团队 @l…