@LigengZhu: 很激动地分享KDA:驱动HAN Lab Kernel Mafia在Kernel Cont中获得#1~3内核排名的Kernel Design Agents……

X AI KOLs Timeline 工具

摘要

KDA是一个由智能体驱动的内核设计框架,通过最小化人工参与,帮助HAN Lab在MLSys FlashInfer Kernel Contest中获得顶尖排名。该智能体利用Humanize、KernelWiki和性能分析技能来生成最先进的内核。

很激动地分享KDA:驱动HAN Lab Kernel Mafia在Kernel Contest中获得#1~3内核排名的Kernel Design Agents 得益于智能体,到2026年人人都能成为“kernel bro”:通过采用KDA,该团队在MLSys FlashInfer Kernel Contest的Pure Agent赛道中,在MoE上获得第1名,在DSA上获得第2名,在GDN上获得第3名——尤其考虑到主要参与者(dongyun zou)在2026年仅写过约400行Triton代码和0行CUDA代码。 其核心哲学是利用Humanize(最佳harness框架)让智能体尽可能长时间地自主运行。通过最小化人工参与和输入,并完全信任智能体,我们可以达到接近最先进水平的内核性能。 HAN Lab Mafia针对MLSys’26 Kernel Contest的解决方案:https://github.com/mit-han-lab/mlsys2026-flashinfer-contest… KDA GitHub:https://github.com/mit-han-lab/kernel-design-agents…
查看原文
查看缓存全文

缓存时间: 2026/05/23 20:16

很高兴分享KDA(内核设计智能体),它助力HAN Lab Kernel Mafia在内核竞赛中夺得第1~3名。得益于智能体,到2026年人人都能成为“内核兄弟“:通过采用KDA,该团队在MLSys FlashInfer内核竞赛纯智能体赛道中,分别在MoE赛道排名第1、DSA赛道第2、GDN赛道第3 —— 尤其考虑到主要参赛者(dongyun zou)在2026年仅写过约400行Triton代码和0行CUDA代码。这里的核心哲学是利用Humanize(最佳框架)让智能体尽可能长时间地自主运行。通过最小化人工介入和输入,并完全信任智能体,我们可以实现接近SOTA水平的内核性能。

HAN Lab Mafia 针对MLSys’26内核竞赛的解决方案:https://github.com/mit-han-lab/mlsys2026-flashinfer-contest… KDA GitHub:https://github.com/mit-han-lab/kernel-design-agents…


mit-han-lab/mlsys2026-flashinfer-contest

来源:https://github.com/mit-han-lab/mlsys2026-flashinfer-contest

HAN Lab Kernel Mafia MLSys2026 FlashInfer竞赛发布

本仓库发布我们MLSys 2026 FlashInfer纯智能体赛道工作所用的提示词、工作流文档以及一个最小验证示例。提交的内核由完全基于智能体的优化工作流配合KDA(内核开发智能体)生成。核心方法包括:Humanize(https://github.com/PolyArch/humanize)(最佳框架)、我们收集的KernelWiki(https://github.com/DongyunZou/KernelWiki/tree/master)以及Nsight Compute分析技能(https://github.com/DongyunZou/ncu-report-skill)。

  • 团队:HAN Lab Kernel Mafia
  • 技术报告:docs/HAN_Lab_Kernel_Mafia_Technical_Report
  • 生成的内核/最终解决方案:mit-han-lab/mlsys2026-flashinfer-contest-solution (https://github.com/mit-han-lab/mlsys2026-flashinfer-contest-solution)

HAN Lab Kernel Mafia 预告图

本仓库故意保持小巧,包含文档、智能体提示词以及一个轻量级的flashinfer-bench验证示例(用于外部打包的solution.json)。最终内核源码快照和提交验证框架位于上面链接的单独提交仓库中。可复用的技能保留在它们自己的仓库中,链接如下。

竞赛结果

我们的智能体工作流在MLSys 2026竞赛NVIDIA赛道的所有三个纯智能体方案赛道上均取得令人印象深刻的结果:

赛道结果
MoE赛道第1名
DSA赛道第2名
GDN赛道第3名

发布的提示词遵循三阶段优化工作流:

三阶段内核优化流水线

每个阶段使用Humanize规划和RLCR循环将阶段提示词转化为可执行的优化计划:

Humanize内核智能体循环

技能消融实验

此消融实验在竞赛后、与官方竞赛提交分开进行,因此其数字旨在解释技能的贡献,而非与上述竞赛结果完全匹配。

技能消融实验突显Humanize是主要贡献者:它为智能体提供了更强的计划-执行-验证结构,将每次优化尝试转变为更有纪律的循环,而不是松散的尝试序列。KernelWiki拓宽了智能体可参考的内核知识,而ncu-report-skill让智能体能够读取更细粒度的分析器证据,而不仅仅依赖作为黑箱的基准测试分数。这两项技能很有用,但最大且最核心的增益来自Humanize。

技能消融实验

目录结构

路径用途
verify.pyflashinfer-bench评估一个打包的FlashInfer solution.json的最小示例。
prompts/用于智能体工作流的提示词模板和任务特定提示词。
skills/指向所需Claude技能的Git子模块链接。
docs/HAN_Lab_Kernel_Mafia_Technical_Report.pdf技术报告。
docs/reproduction.md环境、数据集和基准测试复现说明。

全新工作流设置

克隆此仓库,安装基准测试环境,下载FlashInfer竞赛工作负载,并准备智能体工作流依赖项:

git clone --recurse-submodules https://github.com/mit-han-lab/mlsys2026-flashinfer-contest.git
cd mlsys2026-flashinfer-contest
git clone https://github.com/flashinfer-ai/flashinfer-bench.git /tmp/flashinfer-bench-main
uv sync --python 3.12 # uv.lock 锁定了竞赛测试过的栈:
# flashinfer-python==0.6.8.post1, torch==2.12.0+cu132, triton==3.6.0.
# 使用 Python 3.12 或 3.13;Python 3.14 不被所有 CUDA wheel 支持。
# 某些基线和生成的解决方案需要 DeepGEMM/CUTLASS/CuTe 头文件。
git clone https://github.com/deepseek-ai/DeepGEMM.git /tmp/DeepGEMM
uv pip install -e /tmp/DeepGEMM --no-build-isolation
uv run ./scripts/download_data.sh

确认工作负载数据集可见:

uv run python -c "from flashinfer_bench import TraceSet; ts = TraceSet.from_path('data/flashinfer-trace'); print(sorted(ts.definitions)); print(sum(len(v) for v in ts.workloads.values()), 'workloads')"

从官方FlashInfer入门套件创建一个单独的任务实现工作区,然后从那里启动智能体。此仓库是提示词/工作流发布,请勿直接在此仓库中实现内核。

mkdir -p workspaces
git clone https://github.com/flashinfer-ai/flashinfer-bench-starter-kit.git workspaces/
cd workspaces/
export FIB_DATASET_PATH="$OLDPWD/data/flashinfer-trace"

然后选择prompts/下的某个任务提示词,在任务实现工作区中启动一个新的智能体会话,并粘贴所选阶段的提示词。发布的最终内核不属于此工作流,不得用作实现输入。有关完整的环境说明和打包方案验证命令,请参见docs/reproduction.md

默认情况下,数据集存储在此仓库中的data/flashinfer-trace下。可通过以下命令覆盖:

export FIB_DATASET_PATH=/path/to/flashinfer-trace

智能体工作流依赖项

工作流依赖Claude Code和Codex。将humanize安装为Claude Code插件,并将KernelWikincu-report-skill安装为~/.claude/skills/下的Claude技能。本仓库将两个所需技能作为skills/下的git子模块链接,以便在发布树中可见。如果克隆时没有使用--recurse-submodules,请从仓库根目录初始化它们:

git submodule update --init --recursive
# 链接技能
mkdir -p ~/.claude/skills
ln -sfn "$PWD/skills/KernelWiki" ~/.claude/skills/KernelWiki
ln -sfn "$PWD/skills/ncu-report-skill" ~/.claude/skills/ncu-report-skill
# 或直接克隆技能
# mkdir -p ~/.claude/skills && cd ~/.claude/skills
# git clone https://github.com/DongyunZou/ncu-report-skill.git
# git clone https://github.com/DongyunZou/KernelWiki.git

通过Claude插件市场单独安装humanize

# 添加PolyArch市场
/plugin marketplace add PolyArch/humanize
# 然后安装humanize插件
/plugin install humanize@PolyArch

发布边界

最终内核仅存储在mit-han-lab/mlsys2026-flashinfer-contest-solution.git (https://github.com/mit-han-lab/mlsys2026-flashinfer-contest-solution.git) 中作为结果快照。此链接用于发布溯源和最终结果验证,不可作为提示词驱动智能体工作流的输入。智能体在解决任务时不得克隆或检查发布仓库。中间候选方案、基准测试历史以及搜索DAG不属于本次发布。

prompts/中的提示词设计为从官方FlashInfer入门套件创建的单独任务实现工作区运行。我们不会将最终内核放入智能体起始工作区中。运行完整智能体工作流并非位级确定性:搜索顺序、分析噪声、GPU调度和模型行为都可能发生变化。外部提交仓库是已发布最终内核快照的权威来源。

相似文章

AdaExplore:基于失败驱动的自适应与多样性保留搜索的高效内核生成

arXiv cs.CL

来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。

KForge:面向AI加速器的LLM驱动跨平台内核生成

arXiv cs.LG

KForge是一个跨平台框架,利用两个协作的基于LLM的智能体,自动生成和优化适用于多种AI加速器的高性能计算内核,在NVIDIA B200和Intel Arc B580硬件上实现了显著的加速效果。