@leloykun: 我又忙忘了时间 >.< 最近如果给我发过私信,真的非常抱歉。我保证会逐一查看!--- 在本次迭代中,我……
摘要
作者开发了一个从 Lean4 到 TileLang 的张量程序超优化器,能够自动生成优化后的加速器内核并推导超参数缩放定律,在 A100 GPU 上实现了 1.8 倍的加速。
我又忙忘了时间 >.< 最近如果给我发过私信,真的非常抱歉。我保证会逐一查看!--- 在本次迭代中,我构建了一个 Lean4-to-TileLang 张量程序超优化器。借助它,我现在拥有了一套形式化基础设施,让我(或我的智能体)能够在 Lean4 中定义神经网络架构,并自动获得:1. TileLang 中经过优化的 IO 感知加速器内核。它可以自动发现 FlashAttention2、FlashNorm、split-k matmul 等模式。目前在我的基准测试集上,于 A100 上实现了约 1.8 倍的几何平均加速比。2. 优化器选择与参数化方案,支持超参数在模型宽度和深度之间进行迁移(参见我之前的博客文章)。3. 超参数缩放定律,指导我们在扩展 batch size、训练步数、数据集规模等时如何调整超参数(参见引用推文)。4. 优化器的低秩代理,用于在小规模下加速超参数调优,并能将结果迁移至全秩场景(我们即将发表相关论文,敬请期待!)。
相似文章
@leloykun:[进行中] 关于 Lean4-to-TileLang 张量程序超级优化器的博文:
一篇技术博文介绍了一种 Lean4-to-TileLang 张量程序超级优化器,能自动生成优化的 GPU/TPU 内核与超参数缩放规律,展示了相较 torch.compile 的性能提升。
AccelOpt:一种用于AI加速器内核优化的自我改进LLM智能体系统
AccelOpt是一种自我改进的LLM智能体系统,通过迭代生成和优化记忆自主优化AI加速器内核,在AWS Trainium上实现了49%至61%的峰值吞吐量提升,同时比Claude Sonnet 4便宜26倍。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。
@pupposandro:在 Strix Halo 上比 llama.cpp 快 2.5 倍。我们刚刚为 AMD Ryzen AI MAX+ 395 iGPU(gfx1151,……)发布了 DFlash + PFlash
一套新工具集(DFlash + PFlash)在 AMD Ryzen AI MAX+ 395 iGPU 上实现了比 llama.cpp 快 2.5 倍的推理速度,展示了 Qwen3.6-27B 在 128 GiB 统一内存下的显著加速效果。
一个可定制的编译器,用于为AI模型生成高效的融合GPU内核 [P]
作者介绍了一款用 Python 编写、高度可定制且易于修改的 ML 编译器。该编译器通过多级 IR 流水线将 LLMs 转换为优化的 CUDA 内核,在特定操作上实现了与 PyTorch 相当甚至更优的性能。文章详细阐述了该编译器的优化过程、降级规则以及用于生成高效融合 GPU 内核的 CLI 用法。