@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…

X AI KOLs Timeline 新闻

摘要

一条推文讨论了两种agentic GPU内核优化系统:@dogacel0的Auto GPU Kernel和@songhan_mit实验室的Kernel Design Agents,两者均在MLSys Sparse Attention FlashInfer比赛中获胜。该帖子突出了使用子代理和Claude技能进行GPU编程的不同方法。

GPU编程的第163/365天 今天来看几个不同的agentic GPU内核优化系统。目前我最感兴趣的两个是: - @dogacel0的Auto GPU Kernel,他用这个赢得了今年MLSys的DeepSeek Sparse Attention FlashInfer挑战赛 - @songhan_mit实验室的Kernel Design Agents,在同一个比赛的MoE赛道中获得第一名 看到子代理和Claude技能(如Kernel Wiki)在优化这些用于GPU编程的agentic循环中的不同用法,非常有趣。两者都给我的工作流程带来了很好的灵感。
查看原文
查看缓存全文

缓存时间: 2026/06/16 01:13

163/365 of GPU Programming

今天关注了几个不同的代理式GPU内核优化系统。目前我最感兴趣的两个是:

  • @dogacel0 的 Auto GPU Kernel,他利用这个系统赢得了今年 MLSys 的 DeepSeek Sparse Attention FlashInfer 挑战赛。
  • @songhan_mit 实验室的 Kernel Design Agents,该系统在同一比赛的 MoE 赛道中获得了第一名。

看到子代理和 Claude 技能(如 Kernel Wiki)在优化这些 GPU 编程的代理循环中的不同用途,真的很有趣。这两个系统都为我自己的工作流程提供了很好的灵感。

仓库链接:

  • https://github.com/Dogacel/auto-gpu-kernel…
  • https://github.com/mit-han-lab/kernel-design-agents…

相似文章

AdaExplore:基于失败驱动的自适应与多样性保留搜索的高效内核生成

arXiv cs.CL

来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。