@LigengZhu: 很激动地分享KDA：驱动HAN Lab Kernel Mafia在Kernel Cont中获得#1~3内核排名的Kernel Design Agents……

X AI KOLs Timeline 2026/05/23 19:39 工具

kernel-design agents mlsys contest optimization deep-learning open-source

摘要

KDA是一个由智能体驱动的内核设计框架，通过最小化人工参与，帮助HAN Lab在MLSys FlashInfer Kernel Contest中获得顶尖排名。该智能体利用Humanize、KernelWiki和性能分析技能来生成最先进的内核。

很激动地分享KDA：驱动HAN Lab Kernel Mafia在Kernel Contest中获得#1~3内核排名的Kernel Design Agents 得益于智能体，到2026年人人都能成为“kernel bro”：通过采用KDA，该团队在MLSys FlashInfer Kernel Contest的Pure Agent赛道中，在MoE上获得第1名，在DSA上获得第2名，在GDN上获得第3名——尤其考虑到主要参与者（dongyun zou）在2026年仅写过约400行Triton代码和0行CUDA代码。其核心哲学是利用Humanize（最佳harness框架）让智能体尽可能长时间地自主运行。通过最小化人工参与和输入，并完全信任智能体，我们可以达到接近最先进水平的内核性能。 HAN Lab Mafia针对MLSys’26 Kernel Contest的解决方案：https://github.com/mit-han-lab/mlsys2026-flashinfer-contest… KDA GitHub：https://github.com/mit-han-lab/kernel-design-agents…

查看原文

查看缓存全文

缓存时间: 2026/05/23 20:16

很高兴分享KDA（内核设计智能体），它助力HAN Lab Kernel Mafia在内核竞赛中夺得第1~3名。得益于智能体，到2026年人人都能成为“内核兄弟“：通过采用KDA，该团队在MLSys FlashInfer内核竞赛纯智能体赛道中，分别在MoE赛道排名第1、DSA赛道第2、GDN赛道第3 —— 尤其考虑到主要参赛者（dongyun zou）在2026年仅写过约400行Triton代码和0行CUDA代码。这里的核心哲学是利用Humanize（最佳框架）让智能体尽可能长时间地自主运行。通过最小化人工介入和输入，并完全信任智能体，我们可以实现接近SOTA水平的内核性能。

HAN Lab Mafia 针对MLSys’26内核竞赛的解决方案：https://github.com/mit-han-lab/mlsys2026-flashinfer-contest… KDA GitHub：https://github.com/mit-han-lab/kernel-design-agents…

mit-han-lab/mlsys2026-flashinfer-contest

来源：https://github.com/mit-han-lab/mlsys2026-flashinfer-contest

HAN Lab Kernel Mafia MLSys2026 FlashInfer竞赛发布

本仓库发布我们MLSys 2026 FlashInfer纯智能体赛道工作所用的提示词、工作流文档以及一个最小验证示例。提交的内核由完全基于智能体的优化工作流配合KDA（内核开发智能体）生成。核心方法包括：Humanize（https://github.com/PolyArch/humanize）（最佳框架）、我们收集的KernelWiki（https://github.com/DongyunZou/KernelWiki/tree/master）以及Nsight Compute分析技能（https://github.com/DongyunZou/ncu-report-skill）。

团队：HAN Lab Kernel Mafia
技术报告：docs/HAN_Lab_Kernel_Mafia_Technical_Report
生成的内核/最终解决方案：mit-han-lab/mlsys2026-flashinfer-contest-solution (https://github.com/mit-han-lab/mlsys2026-flashinfer-contest-solution)

HAN Lab Kernel Mafia 预告图

本仓库故意保持小巧，包含文档、智能体提示词以及一个轻量级的flashinfer-bench验证示例（用于外部打包的solution.json）。最终内核源码快照和提交验证框架位于上面链接的单独提交仓库中。可复用的技能保留在它们自己的仓库中，链接如下。

竞赛结果

我们的智能体工作流在MLSys 2026竞赛NVIDIA赛道的所有三个纯智能体方案赛道上均取得令人印象深刻的结果：

赛道	结果
MoE赛道	第1名
DSA赛道	第2名
GDN赛道	第3名

发布的提示词遵循三阶段优化工作流：

三阶段内核优化流水线

每个阶段使用Humanize规划和RLCR循环将阶段提示词转化为可执行的优化计划：

Humanize内核智能体循环

技能消融实验

此消融实验在竞赛后、与官方竞赛提交分开进行，因此其数字旨在解释技能的贡献，而非与上述竞赛结果完全匹配。

技能消融实验突显Humanize是主要贡献者：它为智能体提供了更强的计划-执行-验证结构，将每次优化尝试转变为更有纪律的循环，而不是松散的尝试序列。KernelWiki拓宽了智能体可参考的内核知识，而ncu-report-skill让智能体能够读取更细粒度的分析器证据，而不仅仅依赖作为黑箱的基准测试分数。这两项技能很有用，但最大且最核心的增益来自Humanize。

技能消融实验

目录结构

路径	用途
`verify.py`	用`flashinfer-bench`评估一个打包的FlashInfer `solution.json`的最小示例。
`prompts/`	用于智能体工作流的提示词模板和任务特定提示词。
`skills/`	指向所需Claude技能的Git子模块链接。
`docs/HAN_Lab_Kernel_Mafia_Technical_Report.pdf`	技术报告。
`docs/reproduction.md`	环境、数据集和基准测试复现说明。

全新工作流设置

克隆此仓库，安装基准测试环境，下载FlashInfer竞赛工作负载，并准备智能体工作流依赖项：

git clone --recurse-submodules https://github.com/mit-han-lab/mlsys2026-flashinfer-contest.git
cd mlsys2026-flashinfer-contest
git clone https://github.com/flashinfer-ai/flashinfer-bench.git /tmp/flashinfer-bench-main
uv sync --python 3.12 # uv.lock 锁定了竞赛测试过的栈：
# flashinfer-python==0.6.8.post1, torch==2.12.0+cu132, triton==3.6.0.
# 使用 Python 3.12 或 3.13；Python 3.14 不被所有 CUDA wheel 支持。
# 某些基线和生成的解决方案需要 DeepGEMM/CUTLASS/CuTe 头文件。
git clone https://github.com/deepseek-ai/DeepGEMM.git /tmp/DeepGEMM
uv pip install -e /tmp/DeepGEMM --no-build-isolation
uv run ./scripts/download_data.sh

确认工作负载数据集可见：

uv run python -c "from flashinfer_bench import TraceSet; ts = TraceSet.from_path('data/flashinfer-trace'); print(sorted(ts.definitions)); print(sum(len(v) for v in ts.workloads.values()), 'workloads')"

从官方FlashInfer入门套件创建一个单独的任务实现工作区，然后从那里启动智能体。此仓库是提示词/工作流发布，请勿直接在此仓库中实现内核。

mkdir -p workspaces
git clone https://github.com/flashinfer-ai/flashinfer-bench-starter-kit.git workspaces/
cd workspaces/
export FIB_DATASET_PATH="$OLDPWD/data/flashinfer-trace"

然后选择prompts/下的某个任务提示词，在任务实现工作区中启动一个新的智能体会话，并粘贴所选阶段的提示词。发布的最终内核不属于此工作流，不得用作实现输入。有关完整的环境说明和打包方案验证命令，请参见docs/reproduction.md。

默认情况下，数据集存储在此仓库中的data/flashinfer-trace下。可通过以下命令覆盖：

export FIB_DATASET_PATH=/path/to/flashinfer-trace

智能体工作流依赖项

工作流依赖Claude Code和Codex。将humanize安装为Claude Code插件，并将KernelWiki和ncu-report-skill安装为~/.claude/skills/下的Claude技能。本仓库将两个所需技能作为skills/下的git子模块链接，以便在发布树中可见。如果克隆时没有使用--recurse-submodules，请从仓库根目录初始化它们：

git submodule update --init --recursive
# 链接技能
mkdir -p ~/.claude/skills
ln -sfn "$PWD/skills/KernelWiki" ~/.claude/skills/KernelWiki
ln -sfn "$PWD/skills/ncu-report-skill" ~/.claude/skills/ncu-report-skill
# 或直接克隆技能
# mkdir -p ~/.claude/skills && cd ~/.claude/skills
# git clone https://github.com/DongyunZou/ncu-report-skill.git
# git clone https://github.com/DongyunZou/KernelWiki.git

通过Claude插件市场单独安装humanize

# 添加PolyArch市场
/plugin marketplace add PolyArch/humanize
# 然后安装humanize插件
/plugin install humanize@PolyArch

发布边界

最终内核仅存储在mit-han-lab/mlsys2026-flashinfer-contest-solution.git (https://github.com/mit-han-lab/mlsys2026-flashinfer-contest-solution.git) 中作为结果快照。此链接用于发布溯源和最终结果验证，不可作为提示词驱动智能体工作流的输入。智能体在解决任务时不得克隆或检查发布仓库。中间候选方案、基准测试历史以及搜索DAG不属于本次发布。

prompts/中的提示词设计为从官方FlashInfer入门套件创建的单独任务实现工作区运行。我们不会将最终内核放入智能体起始工作区中。运行完整智能体工作流并非位级确定性：搜索顺序、分析噪声、GPU调度和模型行为都可能发生变化。外部提交仓库是已发布最终内核快照的权威来源。

@LigengZhu: 很激动地分享KDA：驱动HAN Lab Kernel Mafia在Kernel Cont中获得#1~3内核排名的Kernel Design Agents……

mit-han-lab/mlsys2026-flashinfer-contest

HAN Lab Kernel Mafia MLSys2026 FlashInfer竞赛发布

竞赛结果

技能消融实验

目录结构

全新工作流设置

智能体工作流依赖项

发布边界

相似文章

@songhan_mit: 探索 KDA (Kernel Design Agents): https://github.com/mit-han-lab/kernel-design-agents…

@levidiamode: GPU编程的第163/365天 - 今天看几个不同的agentic GPU内核优化系统。我最感兴趣的两个是…

AgentKernelArena：兼顾泛化能力的GPU内核优化代理基准测试

@songhan_mit: 我们开发了一种基于智能体的原生方法来加速生成式AI，延续了KDA（内核设计智能体）在更高层次上的成功…

@RisingSayak: Hugging Face 的内核项目正在成长！我们希望它成为内核开发者和内核用户的首选之地…

提交意见反馈