尽管有高度优化的NumPy函数,torch.compile()如何实现大幅加速?[D]

Reddit r/MachineLearning 工具

摘要

作者解释了算子融合是torch.compile加速的关键机制,并提供了一个仅500行的Python最小实现及配套的笔记作为教学工具。

我一直在思考这个问题,于是决定深入探索torch.compile。学习算子融合作为torch.compile的核心思想非常有趣。因此,我用500行Python代码创建了一个迷你版torch.compile,并附带一份笔记展示其工作原理:https://github.com/purohit10saurabh/tinytorchcompile 欢迎告诉我你是否觉得有趣!🙂
查看原文

相似文章

一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]

Reddit r/MachineLearning

作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。

@shreyansh_26: https://x.com/shreyansh_26/status/2069125463860302212

X AI KOLs Timeline

本文介绍了Decompose-K技术,用于加速瘦高大K矩阵乘法,通过将K维度分割成块,执行批量矩阵乘法,并求和部分结果。还提供了PyTorch实现和基准测试,显示对于形状不佳的矩阵乘法,相比标准torch.compile有显著加速。