尽管有高度优化的NumPy函数,torch.compile()如何实现大幅加速?[D]
摘要
作者解释了算子融合是torch.compile加速的关键机制,并提供了一个仅500行的Python最小实现及配套的笔记作为教学工具。
我一直在思考这个问题,于是决定深入探索torch.compile。学习算子融合作为torch.compile的核心思想非常有趣。因此,我用500行Python代码创建了一个迷你版torch.compile,并附带一份笔记展示其工作原理:https://github.com/purohit10saurabh/tinytorchcompile 欢迎告诉我你是否觉得有趣!🙂
相似文章
@jino_rohit: 理解 torch.compile 堆栈 torch.compile 是一种加速 PyTorch 代码的技术。torch.compile 通过…
本文解释了 PyTorch 中的 torch.compile 堆栈,详述了从 API 到 Dynamo、FX 图、ATen 操作以及用于 JIT 编译的 Torch Inductor 的各个步骤。
一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]
作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。
@AnimaAnandkumar: 这是我们自开始研究神经算子以来一直在强调的一点。我们很快就从简单的...
Anima Anandkumar 强调,尽管基准测试简单,但神经算子在像高分辨率 AI 天气预报模型 (FourCastNet) 和核聚变湍流这样的困难实际问题上实现了巨大加速(10,000 到百万倍)。她引用了一篇新论文,表明随着 PDE 任务难度的增加,学习型求解器变得更加经济高效。
@leloykun:[进行中] 关于 Lean4-to-TileLang 张量程序超级优化器的博文:
一篇技术博文介绍了一种 Lean4-to-TileLang 张量程序超级优化器,能自动生成优化的 GPU/TPU 内核与超参数缩放规律,展示了相较 torch.compile 的性能提升。
@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212
本文介绍了Decompose-K技术,用于加速瘦高大K矩阵乘法,通过将K维度分割成块,执行批量矩阵乘法,并求和部分结果。还提供了PyTorch实现和基准测试,显示对于形状不佳的矩阵乘法,相比标准torch.compile有显著加速。