AgentKernelArena:兼顾泛化能力的GPU内核优化代理基准测试
摘要
AgentKernelArena是一个开源基准测试,用于评估AI编码代理在GPU内核优化方面的表现,涵盖完整的代理工作流程以及跨196个任务对未见配置的泛化能力。
查看缓存全文
缓存时间: 2026/05/19 06:30
论文页面 - AgentKernelArena: 面向GPU内核优化的泛化感知基准测试
来源:https://huggingface.co/papers/2605.16819 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
AgentKernelArena被介绍为一个开源基准测试,用于评估AI编码智能体在GPU内核优化上的表现,它评估完整的智能体工作流,并测试在多个优化任务上针对未见配置的泛化能力。
GPU内核优化 (https://huggingface.co/papers?q=GPU%20kernel%20optimization) 对于高效的深度学习系统日益关键,但编写高性能内核仍然需要大量的底层专业经验。最近的AI编码智能体 (https://huggingface.co/papers?q=AI%20coding%20agents) 可以迭代地读取代码、调用编译器和性能分析器,并优化实现,然而现有的内核基准测试评估的是单个LLM调用而不是完整的智能体工作流 (https://huggingface.co/papers?q=agent%20workflows),并且没有一个同时包含内核到内核的优化和未见配置泛化 (https://huggingface.co/papers?q=unseen-configuration%20generalization) 测试。我们提出了AgentKernelArena,一个用于衡量AI编码智能体 (https://huggingface.co/papers?q=AI%20coding%20agents) 在GPU内核优化 (https://huggingface.co/papers?q=GPU%20kernel%20optimization) 上表现的开源基准测试。该基准测试包含196个任务,涵盖HIP到HIP优化 (https://huggingface.co/papers?q=HIP-to-HIP%20optimization)、Triton到Triton优化 (https://huggingface.co/papers?q=Triton-to-Triton%20optimization) 以及PyTorch到HIP转换 (https://huggingface.co/papers?q=PyTorch-to-HIP%20translation),并在隔离的工作空间中评估完整的智能体工作流 (https://huggingface.co/papers?q=agent%20workflows),使用门控编译 (https://huggingface.co/papers?q=compilation)、正确性 (https://huggingface.co/papers?q=correctness) 和性能检查 (https://huggingface.co/papers?q=performance%20checks),集中评分以及一个未见配置泛化 (https://huggingface.co/papers?q=unseen-configuration%20generalization) 协议,该协议测试优化是否能迁移到智能体从未观察到的输入配置。在包括Cursor Agent、Claude Code和Codex Agent在内的生产级智能体中,我们发现大多数任务类别上接近完美的编译 (https://huggingface.co/papers?q=compilation) 率和较高的正确性 (https://huggingface.co/papers?q=correctness) 率,最强配置在PyTorch到HIP任务上实现了高达6.89倍的平均加速,HIP到HIP任务上6.69倍,Triton到Triton任务上2.13倍。我们的未见配置评估显示,HIP到HIP和Triton到Triton优化 (https://huggingface.co/papers?q=Triton-to-Triton%20optimization) 在很大程度上可迁移到未见的输入形状,而PyTorch到HIP则表现出正确性 (https://huggingface.co/papers?q=correctness) 的显著下降,表明从头生成内核的智能体经常硬编码针对形状的假设。AgentKernelArena设计为一个模块化、可扩展的框架,用于跨智能体、任务和硬件目标对基于智能体的GPU内核优化 (https://huggingface.co/papers?q=GPU%20kernel%20optimization) 进行严格评估。
查看arXiv页面 (https://arxiv.org/abs/2605.16819) 查看PDF (https://arxiv.org/pdf/2605.16819) GitHub16 (https://github.com/AMD-AGI/AgentKernelArena) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.16819)
在您的智能体中获取此论文:
hf papers read 2605.16819
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型链接此论文
在模型的README.md中引用arxiv.org/abs/2605.16819以从本页面链接。
引用此论文的数据集0
暂无数据集链接此论文
在数据集的README.md中引用arxiv.org/abs/2605.16819以从本页面链接。
引用此论文的Space0
暂无Space链接此论文
在Space的README.md中引用arxiv.org/abs/2605.16819以从本页面链接。
包含此论文的收藏集0
暂无收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页面链接。
相似文章
AdaExplore:基于失败驱动的自适应与多样性保留搜索的高效内核生成
来自卡内基梅隆大学、华盛顿大学和Arm的研究人员提出了AdaExplore,这是一种用于GPU内核代码生成的LLM智能体框架。该框架通过失败驱动自适应与多样性保留搜索技术,在不进行额外微调的情况下,在KernelBench Level-2和Level-3基准测试中分别实现了3.12倍和1.72倍的加速。
KernelBench-X:评估LLM生成GPU内核的综合基准测试
KernelBench-X是一个用于评估LLM生成GPU内核的新基准,揭示了任务结构对正确性的影响大于方法设计,且正确性并不保证硬件效率。
AA 推出 Coding Agent Index —— 模型与 Harness 组合的性能对比
Artificial Analysis 推出了 Coding Agent Index,这是一套新的基准测试套件,结合了 SWE-Bench-Pro-Hard-AA、Terminal-Bench v2 和 SWE-Atlas-QnA,旨在评估 AI 编程代理在多样化任务中的表现。
合并你PR的智能体,尚无基准可循。
Artificial Analysis 推出了一个编码智能体指数,该指数分别测试框架与模型的组合,强调基准测试任务与实际生产需求不同。文章认为,团队应基于自身的代码库和工作流来评估智能体配置,而非仅依赖标准化基准。
KForge:面向AI加速器的LLM驱动跨平台内核生成
KForge是一个跨平台框架,利用两个协作的基于LLM的智能体,自动生成和优化适用于多种AI加速器的高性能计算内核,在NVIDIA B200和Intel Arc B580硬件上实现了显著的加速效果。