AgentKernelArena:兼顾泛化能力的GPU内核优化代理基准测试

Hugging Face Daily Papers 论文

摘要

AgentKernelArena是一个开源基准测试,用于评估AI编码代理在GPU内核优化方面的表现,涵盖完整的代理工作流程以及跨196个任务对未见配置的泛化能力。

GPU内核优化对于高效的深度学习系统越来越关键,但编写高性能内核仍然需要大量的底层专业知识。最近的AI编码代理可以迭代地读取代码、调用编译器和性能分析器,并优化实现,然而现有的内核基准测试仅评估单个LLM调用,而非完整的代理工作流程,并且没有一个包含内核到内核的优化和未见配置的泛化测试。我们提出了AgentKernelArena,这是一个用于衡量AI编码代理在GPU内核优化方面表现的开源基准测试。该基准测试包含196个任务,涵盖HIP到HIP的优化、Triton到Triton的优化以及PyTorch到HIP的转换,并在隔离的工作环境中使用门控编译、正确性和性能检查、集中评分以及一个未见配置的泛化协议来评估完整的代理工作流程,该协议测试优化是否能够迁移到代理从未见过的输入配置。在包括Cursor Agent、Claude Code和Codex Agent在内的生产代理中,我们发现大多数任务类别实现了近乎完美的编译和高正确率,最强的配置在PyTorch到HIP任务上平均加速高达6.89倍,在HIP到HIP任务上平均加速高达6.69倍,在Triton到Triton任务上平均加速高达2.13倍。我们的未见配置评估表明,HIP到HIP和Triton到Triton的优化在很大程度上迁移到了未见输入形状,而PyTorch到HIP则表现出显著的正确率下降,表明从头生成内核的代理经常硬编码了形状特定的假设。AgentKernelArena被设计为一个模块化、可扩展的框架,用于跨代理、任务和硬件目标对代理式GPU内核优化进行严格评估。
查看原文
查看缓存全文

缓存时间: 2026/05/19 06:30

论文页面 - AgentKernelArena: 面向GPU内核优化的泛化感知基准测试

来源:https://huggingface.co/papers/2605.16819 作者:

摘要

AgentKernelArena被介绍为一个开源基准测试,用于评估AI编码智能体在GPU内核优化上的表现,它评估完整的智能体工作流,并测试在多个优化任务上针对未见配置的泛化能力。

GPU内核优化 (https://huggingface.co/papers?q=GPU%20kernel%20optimization) 对于高效的深度学习系统日益关键,但编写高性能内核仍然需要大量的底层专业经验。最近的AI编码智能体 (https://huggingface.co/papers?q=AI%20coding%20agents) 可以迭代地读取代码、调用编译器和性能分析器,并优化实现,然而现有的内核基准测试评估的是单个LLM调用而不是完整的智能体工作流 (https://huggingface.co/papers?q=agent%20workflows),并且没有一个同时包含内核到内核的优化和未见配置泛化 (https://huggingface.co/papers?q=unseen-configuration%20generalization) 测试。我们提出了AgentKernelArena,一个用于衡量AI编码智能体 (https://huggingface.co/papers?q=AI%20coding%20agents) 在GPU内核优化 (https://huggingface.co/papers?q=GPU%20kernel%20optimization) 上表现的开源基准测试。该基准测试包含196个任务,涵盖HIP到HIP优化 (https://huggingface.co/papers?q=HIP-to-HIP%20optimization)、Triton到Triton优化 (https://huggingface.co/papers?q=Triton-to-Triton%20optimization) 以及PyTorch到HIP转换 (https://huggingface.co/papers?q=PyTorch-to-HIP%20translation),并在隔离的工作空间中评估完整的智能体工作流 (https://huggingface.co/papers?q=agent%20workflows),使用门控编译 (https://huggingface.co/papers?q=compilation)、正确性 (https://huggingface.co/papers?q=correctness) 和性能检查 (https://huggingface.co/papers?q=performance%20checks),集中评分以及一个未见配置泛化 (https://huggingface.co/papers?q=unseen-configuration%20generalization) 协议,该协议测试优化是否能迁移到智能体从未观察到的输入配置。在包括Cursor Agent、Claude Code和Codex Agent在内的生产级智能体中,我们发现大多数任务类别上接近完美的编译 (https://huggingface.co/papers?q=compilation) 率和较高的正确性 (https://huggingface.co/papers?q=correctness) 率,最强配置在PyTorch到HIP任务上实现了高达6.89倍的平均加速,HIP到HIP任务上6.69倍,Triton到Triton任务上2.13倍。我们的未见配置评估显示,HIP到HIP和Triton到Triton优化 (https://huggingface.co/papers?q=Triton-to-Triton%20optimization) 在很大程度上可迁移到未见的输入形状,而PyTorch到HIP则表现出正确性 (https://huggingface.co/papers?q=correctness) 的显著下降,表明从头生成内核的智能体经常硬编码针对形状的假设。AgentKernelArena设计为一个模块化、可扩展的框架,用于跨智能体、任务和硬件目标对基于智能体的GPU内核优化 (https://huggingface.co/papers?q=GPU%20kernel%20optimization) 进行严格评估。

查看arXiv页面 (https://arxiv.org/abs/2605.16819) 查看PDF (https://arxiv.org/pdf/2605.16819) GitHub16 (https://github.com/AMD-AGI/AgentKernelArena) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.16819)

在您的智能体中获取此论文:

hf papers read 2605.16819

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型链接此论文

在模型的README.md中引用arxiv.org/abs/2605.16819以从本页面链接。

引用此论文的数据集0

暂无数据集链接此论文

在数据集的README.md中引用arxiv.org/abs/2605.16819以从本页面链接。

引用此论文的Space0

暂无Space链接此论文

在Space的README.md中引用arxiv.org/abs/2605.16819以从本页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页面链接。

相似文章

AdaExplore:基于失败驱动的自适应与多样性保留搜索的高效内核生成

arXiv cs.CL

来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。

合并你PR的智能体,尚无基准可循。

Reddit r/AI_Agents

Artificial Analysis 推出了一个编码智能体指数,该指数分别测试框架与模型的组合,强调基准测试任务与实际生产需求不同。文章认为,团队应基于自身的代码库和工作流来评估智能体配置,而非仅依赖标准化基准。

KForge:面向AI加速器的LLM驱动跨平台内核生成

arXiv cs.LG

KForge是一个跨平台框架,利用两个协作的基于LLM的智能体,自动生成和优化适用于多种AI加速器的高性能计算内核,在NVIDIA B200和Intel Arc B580硬件上实现了显著的加速效果。