@h100envy: Meta的PyTorch核心工程师将CUDA内核编写变成了一项13分钟的运动——比1500美元的GPU编程课程还要好……
摘要
Meta的一位PyTorch核心工程师展示了一个快速的CUDA内核优化循环,其性能优于昂贵的训练营,获胜代码通过KernelBot竞赛合并到了PyTorch中。
查看缓存全文
缓存时间: 2026/06/30 23:48
Meta的PyTorch核心工程师在13分钟内将CUDA内核编写变成了一项运动——比售价1500美元的GPU编程训练营还要出色。
剖析内核 -> 找到瓶颈 -> 重写 -> 基准测试 -> 将优胜代码合并到PyTorch。
正是这个循环让开放社区如今超越了手工调优的供应商内核。
GPU MODE社区 + KernelBot竞赛 + 优胜内核合并到框架中——这就是完整的技术栈。
观看视频,然后复制下面的循环。
相似文章
@PyTorch: PyTorch 成员 Meta 刚刚开源了一个 GPU 内核,使注意力在 NVIDIA Blackwell 上加速 2.3 倍。TLX Block Atte…
Meta 开源了 TLX Block Attention,这是一个 warp 特化的 Triton 内核,在 NVIDIA Blackwell GPU 上为块对角自注意力实现了 2.3 倍的加速,与旋转嵌入融合时加速可达 3.5 倍。
一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]
作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。
像人类一样优化CUDA:微剖析工具作为基于LLM的GPU内核优化的专家替代
KernelPro是一个闭环多智能体系统,利用LLM和微剖析工具自动优化GPU内核代码,在KernelBench上实现了2.42×/4.69×/5.30×的几何平均加速,并在相同速度下实测能耗降低11.6%。
@h100envy: Daniel Han 创建了 Unsloth,这正是半数开源项目能在单张 GPU 而非集群上微调模型的原因。他还……
Daniel Han 构建了 Unsloth,该工具通过重写 GPU 内核,使单张 GPU 的微调速度提升 2 到 3 倍,让众多开源用户无需集群即可训练模型。
@PyTorch:一个运行时,多种GPU架构,零厂商特定模型代码。在这篇博文中,TokenSpeed团队 @l…
TokenSpeed-Kernel是一个可移植、高性能的内核系统,用于LLM推理,实现零厂商特定模型代码,并支持多种GPU架构,在AMD MI355X上实现高达3.6倍的吞吐量提升。