KernelBench-X:评估LLM生成GPU内核的综合基准测试

Hugging Face Daily Papers 论文

摘要

KernelBench-X是一个用于评估LLM生成GPU内核的新基准,揭示了任务结构对正确性的影响大于方法设计,且正确性并不保证硬件效率。

基于LLM的Triton内核生成已引起广泛关注,但一个基本的实证问题仍未解答:该能力在何处失效,原因何在?我们提出了KernelBench-X,这是一个通过类别感知评估正确性和硬件效率的基准,涵盖15个类别的176个任务。我们对五种代表性方法进行了系统比较,得出了三个主要发现。首先,任务结构对正确性的决定性大于方法设计。类别在语义正确性上解释的方差几乎是方法的3倍(解释偏差9.4%对3.3%),且72%的融合任务在全部五种方法上均失败,而数学任务则被一致解决。其次,迭代优化提高了正确性,但未提升性能。在GEAK迭代中,编译率从52.3%升至68.8%,而平均加速比从1.58倍降至1.44倍;新挽救的内核性能始终低于持续正确的内核(第0~1轮加速比1.16倍对1.58倍)。第三,正确性并不代表效率。46.6%的正确内核慢于PyTorch即时基线,且跨硬件的加速比方差达到21.4倍。此外,量化问题完全未解决(0/30成功),尽管编译率不低,这揭示了系统性地误解数值计算契约而非表面语法错误。这些发现表明,未来的进展有赖于处理全局协调、显式建模数值精度,以及将硬件效率纳入生成过程。代码可在 https://github.com/BonnieW05/KernelBenchX 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/08 10:53

Paper page - KernelBench-X: 评估LLM生成GPU内核的全面基准

来源: https://huggingface.co/papers/2605.04956

摘要

KernelBench-X基准揭示,任务结构对LLM生成的Triton内核正确性的影响远大于方法设计,而迭代优化虽能提升正确性却以性能为代价,且正确性并不等同于效率。

基于LLM的Triton内核生成(https://huggingface.co/papers?q=Triton%20kernel%20generation)已引起极大关注,但一个基本的实证问题仍未得到解答:这种能力在何处失效,原因是什么?我们提出KernelBench-X(https://huggingface.co/papers?q=KernelBench-X),一个旨在通过类别感知评估来回答此问题的基准,涵盖15个类别中176个任务的正确性(https://huggingface.co/papers?q=correctness)和硬件效率(https://huggingface.co/papers?q=hardware%20efficiency)。我们对五种代表性方法进行系统性比较,得出三项主要发现。首先,任务结构对正确性(https://huggingface.co/papers?q=correctness)的影响大于方法设计。类别解释的语义正确性(https://huggingface.co/papers?q=correctness)方差几乎是方法的3倍(解释偏差9.4% vs 3.3%),且72%的融合任务在所有五种方法上均告失败,而数学任务始终能被解决。其次,迭代优化(https://huggingface.co/papers?q=iterative%20refinement)提升了正确性(https://huggingface.co/papers?q=correctness),但并未提升性能。在GEAK迭代过程中,编译成功率(https://huggingface.co/papers?q=compile%20rate)从52.3%上升至68.8%,但平均加速比(https://huggingface.co/papers?q=speedup)从1.58倍下降至1.44倍;新挽救的内核始终低于持续正确的内核(在0到1轮中加速比(https://huggingface.co/papers?q=speedup)分别为1.16倍和1.58倍)。第三,正确性(https://huggingface.co/papers?q=correctness)并不意味着效率。46.6%的正确内核慢于PyTorch急切基线,且跨硬件加速比(https://huggingface.co/papers?q=speedup)方差达到21.4倍。此外,量化(https://huggingface.co/papers?q=quantization)仍然完全未解决(0/30成功),尽管编译率并非微不足道,这揭示了系统性地误解了数值计算契约,而非表面级的语法错误。这些发现表明,未来的进展依赖于处理全局协调、显式建模数值精度(https://huggingface.co/papers?q=numerical%20precision),并将硬件效率(https://huggingface.co/papers?q=hardware%20efficiency)融入生成过程中。代码可在 https://github.com/BonnieW05/KernelBenchX 获取。

查看arXiv页面(https://arxiv.org/abs/2605.04956)查看PDF(https://arxiv.org/pdf/2605.04956)项目页面(https://github.com/BonnieW05/KernelBenchX)GitHub14(https://github.com/BonnieW05/KernelBenchX)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.04956)

在你的Agent中获取此论文:

hf papers read 2605\.04956

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.04956 即可从本页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.04956 即可从本页面链接。

引用此论文的Spaces0

无Space链接此论文

在Space README.md 中引用 arxiv.org/abs/2605.04956 即可从本页面链接。

包含此论文的合集1

相似文章

在6GB RTX 4050上对20个小LLM的基准测试

Reddit r/LocalLLaMA

对20个为6GB GPU量化的小LLM的详细基准测试,测量了不同上下文长度下的速度和VRAM使用情况,并对工具使用和指令遵循进行了定性探针。该报告旨在帮助拥有中等硬件的用户为本地私有的自动化任务选择模型。