@leloykun: 我又忙忘了时间 >.< 最近如果给我发过私信,真的非常抱歉。我保证会逐一查看!--- 在本次迭代中,我……

X AI KOLs Following 工具

摘要

作者开发了一个从 Lean4 到 TileLang 的张量程序超优化器,能够自动生成优化后的加速器内核并推导超参数缩放定律,在 A100 GPU 上实现了 1.8 倍的加速。

我又忙忘了时间 >.< 最近如果给我发过私信,真的非常抱歉。我保证会逐一查看!--- 在本次迭代中,我构建了一个 Lean4-to-TileLang 张量程序超优化器。借助它,我现在拥有了一套形式化基础设施,让我(或我的智能体)能够在 Lean4 中定义神经网络架构,并自动获得:1. TileLang 中经过优化的 IO 感知加速器内核。它可以自动发现 FlashAttention2、FlashNorm、split-k matmul 等模式。目前在我的基准测试集上,于 A100 上实现了约 1.8 倍的几何平均加速比。2. 优化器选择与参数化方案,支持超参数在模型宽度和深度之间进行迁移(参见我之前的博客文章)。3. 超参数缩放定律,指导我们在扩展 batch size、训练步数、数据集规模等时如何调整超参数(参见引用推文)。4. 优化器的低秩代理,用于在小规模下加速超参数调优,并能将结果迁移至全秩场景(我们即将发表相关论文,敬请期待!)。
查看原文

相似文章

一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]

Reddit r/MachineLearning

作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。