@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…
摘要
一条推文讨论了两种agentic GPU内核优化系统:@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents,两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。
查看缓存全文
缓存时间: 2026/06/16 01:13
163/365 of GPU Programming
今天关注了几个不同的代理式GPU内核优化系统。目前我最感兴趣的两个是:
- @dogacel0 的 Auto GPU Kernel,他利用这个系统赢得了今年 MLSys 的 DeepSeek Sparse Attention FlashInfer 挑战赛。
- @songhan_mit 实验室的 Kernel Design Agents,该系统在同一比赛的 MoE 赛道中获得了第一名。
看到子代理和 Claude 技能(如 Kernel Wiki)在优化这些 GPU 编程的代理循环中的不同用途,真的很有趣。这两个系统都为我自己的工作流程提供了很好的灵感。
仓库链接:
- https://github.com/Dogacel/auto-gpu-kernel…
- https://github.com/mit-han-lab/kernel-design-agents…
相似文章
AgentKernelArena:兼顾泛化能力的GPU内核优化代理基准测试
AgentKernelArena是一个开源基准测试,用于评估AI编码代理在GPU内核优化方面的表现,涵盖完整的代理工作流程以及跨196个任务对未见配置的泛化能力。
@levidiamode: GPU编程第157/365天:另一个对我非常有帮助的FlashAttention4资源是@charles_irl的演讲…
一个每日GPU编程帖子重点介绍了Charles_irl的演讲,该演讲在论文发布前逆向工程了FlashAttention4代码,并赞扬了Modal团队对代码的深入剖析和对前向传播的合理推断。
@levidiamode: Day 138/365 of GPU Programming 今年我最喜欢的讲座之一是斯坦福大学的CS336第7讲关于GPU…
一位学习者分享了对斯坦福大学CS336第7讲关于GPU并行性的热情,该讲座涵盖了基本操作,并将其连接到多GPU设置以及张量并行、数据并行和流水线并行等技术。
@levidiamode: GPU编程第158/365天——我觉得我大致理解了FlashAttention 2、3和4前向传播的高级区别…
作者记录了学习GPU编程的进展,重点在于理解FlashAttention 2、3和4前向传播的高级区别,并列出了需要进一步探索的几个底层概念。
AdaExplore:基于失败驱动的自适应与多样性保留搜索的高效内核生成
来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。