KernelBench-X：评估LLM生成GPU内核的综合基准测试

Hugging Face Daily Papers 2026/05/06 00:00 论文

benchmark llm-code-generation gpu-kernels triton evaluation hardware-efficiency

摘要

KernelBench-X是一个用于评估LLM生成GPU内核的新基准，揭示了任务结构对正确性的影响大于方法设计，且正确性并不保证硬件效率。

基于LLM的Triton内核生成已引起广泛关注，但一个基本的实证问题仍未解答：该能力在何处失效，原因何在？我们提出了KernelBench-X，这是一个通过类别感知评估正确性和硬件效率的基准，涵盖15个类别的176个任务。我们对五种代表性方法进行了系统比较，得出了三个主要发现。首先，任务结构对正确性的决定性大于方法设计。类别在语义正确性上解释的方差几乎是方法的3倍（解释偏差9.4%对3.3%），且72%的融合任务在全部五种方法上均失败，而数学任务则被一致解决。其次，迭代优化提高了正确性，但未提升性能。在GEAK迭代中，编译率从52.3%升至68.8%，而平均加速比从1.58倍降至1.44倍；新挽救的内核性能始终低于持续正确的内核（第0~1轮加速比1.16倍对1.58倍）。第三，正确性并不代表效率。46.6%的正确内核慢于PyTorch即时基线，且跨硬件的加速比方差达到21.4倍。此外，量化问题完全未解决（0/30成功），尽管编译率不低，这揭示了系统性地误解数值计算契约而非表面语法错误。这些发现表明，未来的进展有赖于处理全局协调、显式建模数值精度，以及将硬件效率纳入生成过程。代码可在 https://github.com/BonnieW05/KernelBenchX 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/08 10:53

Paper page - KernelBench-X: 评估LLM生成GPU内核的全面基准

来源: https://huggingface.co/papers/2605.04956

摘要

KernelBench-X基准揭示，任务结构对LLM生成的Triton内核正确性的影响远大于方法设计，而迭代优化虽能提升正确性却以性能为代价，且正确性并不等同于效率。

基于LLM的Triton内核生成（https://huggingface.co/papers?q=Triton%20kernel%20generation）已引起极大关注，但一个基本的实证问题仍未得到解答：这种能力在何处失效，原因是什么？我们提出KernelBench-X（https://huggingface.co/papers?q=KernelBench-X），一个旨在通过类别感知评估来回答此问题的基准，涵盖15个类别中176个任务的正确性（https://huggingface.co/papers?q=correctness）和硬件效率（https://huggingface.co/papers?q=hardware%20efficiency）。我们对五种代表性方法进行系统性比较，得出三项主要发现。首先，任务结构对正确性（https://huggingface.co/papers?q=correctness）的影响大于方法设计。类别解释的语义正确性（https://huggingface.co/papers?q=correctness）方差几乎是方法的3倍（解释偏差9.4% vs 3.3%），且72%的融合任务在所有五种方法上均告失败，而数学任务始终能被解决。其次，迭代优化（https://huggingface.co/papers?q=iterative%20refinement）提升了正确性（https://huggingface.co/papers?q=correctness），但并未提升性能。在GEAK迭代过程中，编译成功率（https://huggingface.co/papers?q=compile%20rate）从52.3%上升至68.8%，但平均加速比（https://huggingface.co/papers?q=speedup）从1.58倍下降至1.44倍；新挽救的内核始终低于持续正确的内核（在0到1轮中加速比（https://huggingface.co/papers?q=speedup）分别为1.16倍和1.58倍）。第三，正确性（https://huggingface.co/papers?q=correctness）并不意味着效率。46.6%的正确内核慢于PyTorch急切基线，且跨硬件加速比（https://huggingface.co/papers?q=speedup）方差达到21.4倍。此外，量化（https://huggingface.co/papers?q=quantization）仍然完全未解决（0/30成功），尽管编译率并非微不足道，这揭示了系统性地误解了数值计算契约，而非表面级的语法错误。这些发现表明，未来的进展依赖于处理全局协调、显式建模数值精度（https://huggingface.co/papers?q=numerical%20precision），并将硬件效率（https://huggingface.co/papers?q=hardware%20efficiency）融入生成过程中。代码可在 https://github.com/BonnieW05/KernelBenchX 获取。

查看arXiv页面（https://arxiv.org/abs/2605.04956）查看PDF（https://arxiv.org/pdf/2605.04956）项目页面（https://github.com/BonnieW05/KernelBenchX）GitHub14（https://github.com/BonnieW05/KernelBenchX）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.04956）

在你的Agent中获取此论文：

hf papers read 2605\.04956

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.04956 即可从本页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.04956 即可从本页面链接。

引用此论文的Spaces0

无Space链接此论文

在Space README.md 中引用 arxiv.org/abs/2605.04956 即可从本页面链接。

KernelBench-X：评估LLM生成GPU内核的综合基准测试

Paper page - KernelBench-X: 评估LLM生成GPU内核的全面基准

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的合集1

相似文章

AgentKernelArena：兼顾泛化能力的GPU内核优化代理基准测试

像人类一样优化CUDA：微剖析工具作为基于LLM的GPU内核优化的专家替代

LinAlg-Bench：揭示大语言模型数学推理中结构性失败模式的诊断性基准

在6GB RTX 4050上对20个小LLM的基准测试

打造了一款能准确告诉你哪些LLMs适合你的GPU的工具。欢迎反馈。

提交意见反馈