AccelOpt:一种用于AI加速器内核优化的自我改进LLM智能体系统

Hugging Face Daily Papers 论文

摘要

AccelOpt是一种自我改进的LLM智能体系统,通过迭代生成和优化记忆自主优化AI加速器内核,在AWS Trainium上实现了49%至61%的峰值吞吐量提升,同时比Claude Sonnet 4便宜26倍。

我们提出了AccelOpt,这是一种自我改进的大语言模型(LLM)智能体系统,能够自主优化新兴AI加速器上的内核,消除了对专家提供的硬件特定优化知识的需求。AccelOpt通过迭代生成探索内核优化空间,并借助优化记忆(该记忆整理了先前遇到的慢-快内核对中的经验和见解)进行指导。我们构建了NKIBench,这是一个新的基准测试套件,包含从实际LLM工作负载中提取的不同复杂度的AWS Trainium加速器内核,用于评估AccelOpt的有效性。评估结果表明,AccelOpt的能力随时间提升,将NKIBench内核在Trainium 1上的峰值吞吐量平均百分比从49%提升至61%,在Trainium 2上从45%提升至59%。此外,AccelOpt极具成本效益:使用开源模型,它实现了与Claude Sonnet 4相当的内核改进,同时成本降低26倍。代码已开源,地址为https://github.com/zhang677/AccelOpt。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:26

论文页面 - AccelOpt:一种用于AI加速器内核优化的自改进LLM智能体系统

来源:https://huggingface.co/papers/2511.15915
https://huggingface.co/login?next=%2Fpapers%2F2511.15915-

摘要

AccelOpt 是一种自改进的LLM智能体系统,通过迭代生成和优化记忆,自主优化AI加速器的内核,以更低的成本实现显著的吞吐量提升。

我们提出了 AccelOpt,一种自改进的大语言模型(LLM)智能体系统,它能够自主优化面向新兴AI加速器的内核,无需专家提供特定硬件的优化知识。AccelOpt 通过迭代生成来探索内核优化空间,并由一个优化记忆驱动,该记忆会整理来自先前遇到的慢-快内核对的经验和见解。我们构建了 NKIBench,这是一个新的基准测试套件,包含从真实 LLM 工作负载中提取的、复杂度各异的 AWS Trainium 加速器内核,用以评估 AccelOpt 的效果。我们的评估证实,AccelOpt 的能力随时间提升,对于 NKIBench 内核,在 Trainium 1 上将平均峰值吞吐量占比从 49% 提升至 61%,在 Trainium 2 上从 45% 提升至 59%。此外,AccelOpt 具有极高的成本效益:使用开源模型时,其内核改进效果与 Claude Sonnet 4 相当,但成本仅为后者的 1/26。代码已开源,地址为 https://github.com/zhang677/AccelOpt。

查看 arXiv 页面(https://arxiv.org/abs/2511.15915)查看 PDF(https://arxiv.org/pdf/2511.15915)项目页面(https://ppl.stanford.edu/accelopt.html)GitHub33(https://github.com/zhang677/AccelOpt)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2511.15915)

社区

论文作者

论文提交者

约3小时前(https://huggingface.co/papers/2511.15915#69e5b6764506644887a3196b)

编辑于约3小时前(https://huggingface.co/papers/2511.15915#69e5b6764506644887a3196b)

  • AccelOpt 将 NKIBench 内核在 Trainium 1 上的平均峰值吞吐量占比从 49% 提升至 61%,在 Trainium 2 上从 45% 提升至 59%。
  • AccelOpt 具有极高的成本效益:使用开源模型时,其内核改进效果与 Claude Sonnet 4 相当,但成本仅为后者的 1/26。
  • AccelOpt 与内核语言无关。在来自 FlashInfer-Bench(H100)的 24 个 Triton 内核上,使用 gpt-oss-120b 的 AccelOpt 相比最佳 Triton 基线实现了 1.27 倍的平均加速,在 GQA 解码内核上达到 3.19 倍峰值加速。这一适配仅由第一作者花费 3 天完成。
  • 在斯坦福大学 CS149 2025 秋季课程(一门研究生级别并行计算课程)中,AccelOpt 优化了一个不属于 NKIBench 的 Conv2D 内核,实现了 48.8% 的峰值吞吐量,而去年参考实现的基线仅为 9.54%。基于 AccelOpt 提出的优化方案,我们设计了一道附加题,131 个学生团队中有 33.6% 成功攻克了该挑战。
  • AccelOpt 论文已被 MLSys 2026 接收。

main-method-shaowz(https://cdn-uploads.huggingface.co/production/uploads/65a76ff1e504d9738d636217/Bolv_a2d6tBc4ldX9wo3U.png)

通过拖拽图像、音频和视频到文本输入框,或点击此处上传。

点击或粘贴此处上传图片

https://huggingface.co/login?next=%2Fpapers%2F2511.15915-

在您的智能体中获取此论文:

hf papers read 2511\.15915

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型3

Genghan/sft-qwen-7b-instruct_GRPO_nki_pure_0920_cluster3 8B• 更新于约3小时前 • 2(https://huggingface.co/Genghan/sft-qwen-7b-instruct_GRPO_nki_pure_0920_cluster3)

Genghan/deepseek-coder-33b-instruct_GRPO_nki_pure_0907_cluster1 33B• 更新于约3小时前 • 1(https://huggingface.co/Genghan/deepseek-coder-33b-instruct_GRPO_nki_pure_0907_cluster1)

Genghan/sft-deepseek-coder-33b-instruct_GRPO_nki_pure_0921_cluster4 33B• 更新于约3小时前 • 2(https://huggingface.co/Genghan/sft-deepseek-coder-33b-instruct_GRPO_nki_pure_0921_cluster4)

引用此论文的数据集1

Genghan/NKIBench 更新于约3小时前 • 21(https://huggingface.co/datasets/Genghan/NKIBench)

引用此论文的Spaces0

没有关联此论文的Space

在Space的README.md中引用 arxiv.org/abs/2511.15915,即可从此页面链接到它。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到一个收藏集中,即可从此页面链接到它。

相似文章

KForge:面向AI加速器的LLM驱动跨平台内核生成

arXiv cs.LG

KForge是一个跨平台框架,利用两个协作的基于LLM的智能体,自动生成和优化适用于多种AI加速器的高性能计算内核,在NVIDIA B200和Intel Arc B580硬件上实现了显著的加速效果。

Ada-MK:基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

arXiv cs.CL

本文介绍了 Ada-MK,一种利用自动化基于有向无环图(DAG)的搜索来消除运行时分支并减少大语言模型(LLM)推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中,该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升,在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。