标签
作者开发了一个从 Lean4 到 TileLang 的张量程序超优化器,能够自动生成优化后的加速器内核并推导超参数缩放定律,在 A100 GPU 上实现了 1.8 倍的加速。
来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。