KernelBench-X:评估LLM生成GPU内核的综合基准测试
摘要
KernelBench-X是一个用于评估LLM生成GPU内核的新基准,揭示了任务结构对正确性的影响大于方法设计,且正确性并不保证硬件效率。
查看缓存全文
缓存时间: 2026/05/08 10:53
Paper page - KernelBench-X: 评估LLM生成GPU内核的全面基准
来源: https://huggingface.co/papers/2605.04956
摘要
KernelBench-X基准揭示,任务结构对LLM生成的Triton内核正确性的影响远大于方法设计,而迭代优化虽能提升正确性却以性能为代价,且正确性并不等同于效率。
基于LLM的Triton内核生成(https://huggingface.co/papers?q=Triton%20kernel%20generation)已引起极大关注,但一个基本的实证问题仍未得到解答:这种能力在何处失效,原因是什么?我们提出KernelBench-X(https://huggingface.co/papers?q=KernelBench-X),一个旨在通过类别感知评估来回答此问题的基准,涵盖15个类别中176个任务的正确性(https://huggingface.co/papers?q=correctness)和硬件效率(https://huggingface.co/papers?q=hardware%20efficiency)。我们对五种代表性方法进行系统性比较,得出三项主要发现。首先,任务结构对正确性(https://huggingface.co/papers?q=correctness)的影响大于方法设计。类别解释的语义正确性(https://huggingface.co/papers?q=correctness)方差几乎是方法的3倍(解释偏差9.4% vs 3.3%),且72%的融合任务在所有五种方法上均告失败,而数学任务始终能被解决。其次,迭代优化(https://huggingface.co/papers?q=iterative%20refinement)提升了正确性(https://huggingface.co/papers?q=correctness),但并未提升性能。在GEAK迭代过程中,编译成功率(https://huggingface.co/papers?q=compile%20rate)从52.3%上升至68.8%,但平均加速比(https://huggingface.co/papers?q=speedup)从1.58倍下降至1.44倍;新挽救的内核始终低于持续正确的内核(在0到1轮中加速比(https://huggingface.co/papers?q=speedup)分别为1.16倍和1.58倍)。第三,正确性(https://huggingface.co/papers?q=correctness)并不意味着效率。46.6%的正确内核慢于PyTorch急切基线,且跨硬件加速比(https://huggingface.co/papers?q=speedup)方差达到21.4倍。此外,量化(https://huggingface.co/papers?q=quantization)仍然完全未解决(0/30成功),尽管编译率并非微不足道,这揭示了系统性地误解了数值计算契约,而非表面级的语法错误。这些发现表明,未来的进展依赖于处理全局协调、显式建模数值精度(https://huggingface.co/papers?q=numerical%20precision),并将硬件效率(https://huggingface.co/papers?q=hardware%20efficiency)融入生成过程中。代码可在 https://github.com/BonnieW05/KernelBenchX 获取。
查看arXiv页面(https://arxiv.org/abs/2605.04956)查看PDF(https://arxiv.org/pdf/2605.04956)项目页面(https://github.com/BonnieW05/KernelBenchX)GitHub14(https://github.com/BonnieW05/KernelBenchX)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.04956)
在你的Agent中获取此论文:
hf papers read 2605\.04956
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.04956 即可从本页面链接。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.04956 即可从本页面链接。
引用此论文的Spaces0
无Space链接此论文
在Space README.md 中引用 arxiv.org/abs/2605.04956 即可从本页面链接。
包含此论文的合集1
相似文章
AgentKernelArena:兼顾泛化能力的GPU内核优化代理基准测试
AgentKernelArena是一个开源基准测试,用于评估AI编码代理在GPU内核优化方面的表现,涵盖完整的代理工作流程以及跨196个任务对未见配置的泛化能力。
像人类一样优化CUDA:微剖析工具作为基于LLM的GPU内核优化的专家替代
KernelPro是一个闭环多智能体系统,利用LLM和微剖析工具自动优化GPU内核代码,在KernelBench上实现了2.42×/4.69×/5.30×的几何平均加速,并在相同速度下实测能耗降低11.6%。
LinAlg-Bench:揭示大语言模型数学推理中结构性失败模式的诊断性基准
介绍了LinAlg-Bench,这是一个诊断性基准,用于评估10个前沿大语言模型在矩阵维度上的结构化线性代数计算,揭示了大语言模型的数学失败在结构上受到约束,并在4x4规模下从执行错误过渡到计算放弃。
在6GB RTX 4050上对20个小LLM的基准测试
对20个为6GB GPU量化的小LLM的详细基准测试,测量了不同上下文长度下的速度和VRAM使用情况,并对工具使用和指令遵循进行了定性探针。该报告旨在帮助拥有中等硬件的用户为本地私有的自动化任务选择模型。
打造了一款能准确告诉你哪些LLMs适合你的GPU的工具。欢迎反馈。
一款估算哪些LLMs适合用户GPU内存的工具,根据性能对模型进行排名,同时考虑内存限制和量化级别。