kernel-generation

#kernel-generation

Hawk：利用硬件感知知识实现高性能NPU内核生成

arXiv cs.AI ↗ · 2026-07-03 缓存

Hawk是一个无需训练的框架，通过利用硬件感知知识来提升大语言模型在NPU内核生成上的表现，将生成准确率从49.4%提升至80.0%，并相比当前最优基线实现最高2.2倍的执行加速。

0 人收藏 0 人点赞

#kernel-generation

面向AMD GPU的更好HIP内核生成：合成数据、多智能体搜索与强化学习

Reddit r/LocalLLaMA ↗ · 2026-07-02 缓存

探讨了合成数据生成、多智能体优化和强化学习，以提高语言模型为AMD GPU生成高性能HIP内核的能力，并在MI350X上展示了编译率和正确率的提升。

0 人收藏 0 人点赞

#kernel-generation

KForge：面向AI加速器的LLM驱动跨平台内核生成

arXiv cs.LG ↗ · 2026-06-03 缓存

KForge是一个跨平台框架，利用两个协作的基于LLM的智能体，自动生成和优化适用于多种AI加速器的高性能计算内核，在NVIDIA B200和Intel Arc B580硬件上实现了显著的加速效果。

0 人收藏 0 人点赞

#kernel-generation

@leloykun: 我又忙忘了时间 >.< 最近如果给我发过私信，真的非常抱歉。我保证会逐一查看！--- 在本次迭代中，我……

X AI KOLs Following ↗ · 2026-05-12

作者开发了一个从 Lean4 到 TileLang 的张量程序超优化器，能够自动生成优化后的加速器内核并推导超参数缩放定律，在 A100 GPU 上实现了 1.8 倍的加速。

0 人收藏 0 人点赞

#kernel-generation

AdaExplore：基于失败驱动的自适应与多样性保留搜索的高效内核生成

arXiv cs.CL ↗ · 2026-04-21 缓存

来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore，这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术，在不进行额外微调的情况下，在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。

0 人收藏 0 人点赞

kernel-generation

Hawk：利用硬件感知知识实现高性能NPU内核生成

面向AMD GPU的更好HIP内核生成：合成数据、多智能体搜索与强化学习

KForge：面向AI加速器的LLM驱动跨平台内核生成

@leloykun: 我又忙忘了时间 >.< 最近如果给我发过私信，真的非常抱歉。我保证会逐一查看！--- 在本次迭代中，我……

AdaExplore：基于失败驱动的自适应与多样性保留搜索的高效内核生成

提交意见反馈