AccelOpt：一种用于AI加速器内核优化的自我改进LLM智能体系统

Hugging Face Daily Papers 2026/04/15 00:00 论文

llm-agents kernel-optimization ai-accelerators self-improving aws-trainium open-source

摘要

AccelOpt是一种自我改进的LLM智能体系统，通过迭代生成和优化记忆自主优化AI加速器内核，在AWS Trainium上实现了49%至61%的峰值吞吐量提升，同时比Claude Sonnet 4便宜26倍。

我们提出了AccelOpt，这是一种自我改进的大语言模型（LLM）智能体系统，能够自主优化新兴AI加速器上的内核，消除了对专家提供的硬件特定优化知识的需求。AccelOpt通过迭代生成探索内核优化空间，并借助优化记忆（该记忆整理了先前遇到的慢-快内核对中的经验和见解）进行指导。我们构建了NKIBench，这是一个新的基准测试套件，包含从实际LLM工作负载中提取的不同复杂度的AWS Trainium加速器内核，用于评估AccelOpt的有效性。评估结果表明，AccelOpt的能力随时间提升，将NKIBench内核在Trainium 1上的峰值吞吐量平均百分比从49%提升至61%，在Trainium 2上从45%提升至59%。此外，AccelOpt极具成本效益：使用开源模型，它实现了与Claude Sonnet 4相当的内核改进，同时成本降低26倍。代码已开源，地址为https://github.com/zhang677/AccelOpt。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:26

论文页面 - AccelOpt：一种用于AI加速器内核优化的自改进LLM智能体系统

来源：https://huggingface.co/papers/2511.15915
https://huggingface.co/login?next=%2Fpapers%2F2511.15915-

摘要

AccelOpt 是一种自改进的LLM智能体系统，通过迭代生成和优化记忆，自主优化AI加速器的内核，以更低的成本实现显著的吞吐量提升。

我们提出了 AccelOpt，一种自改进的大语言模型（LLM）智能体系统，它能够自主优化面向新兴AI加速器的内核，无需专家提供特定硬件的优化知识。AccelOpt 通过迭代生成来探索内核优化空间，并由一个优化记忆驱动，该记忆会整理来自先前遇到的慢-快内核对的经验和见解。我们构建了 NKIBench，这是一个新的基准测试套件，包含从真实 LLM 工作负载中提取的、复杂度各异的 AWS Trainium 加速器内核，用以评估 AccelOpt 的效果。我们的评估证实，AccelOpt 的能力随时间提升，对于 NKIBench 内核，在 Trainium 1 上将平均峰值吞吐量占比从 49% 提升至 61%，在 Trainium 2 上从 45% 提升至 59%。此外，AccelOpt 具有极高的成本效益：使用开源模型时，其内核改进效果与 Claude Sonnet 4 相当，但成本仅为后者的 1/26。代码已开源，地址为 https://github.com/zhang677/AccelOpt。

查看 arXiv 页面（https://arxiv.org/abs/2511.15915）查看 PDF（https://arxiv.org/pdf/2511.15915）项目页面（https://ppl.stanford.edu/accelopt.html）GitHub33（https://github.com/zhang677/AccelOpt）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2511.15915）

社区

论文作者

论文提交者

约3小时前（https://huggingface.co/papers/2511.15915#69e5b6764506644887a3196b）

•

编辑于约3小时前（https://huggingface.co/papers/2511.15915#69e5b6764506644887a3196b）

AccelOpt 将 NKIBench 内核在 Trainium 1 上的平均峰值吞吐量占比从 49% 提升至 61%，在 Trainium 2 上从 45% 提升至 59%。
AccelOpt 具有极高的成本效益：使用开源模型时，其内核改进效果与 Claude Sonnet 4 相当，但成本仅为后者的 1/26。
AccelOpt 与内核语言无关。在来自 FlashInfer-Bench（H100）的 24 个 Triton 内核上，使用 gpt-oss-120b 的 AccelOpt 相比最佳 Triton 基线实现了 1.27 倍的平均加速，在 GQA 解码内核上达到 3.19 倍峰值加速。这一适配仅由第一作者花费 3 天完成。
在斯坦福大学 CS149 2025 秋季课程（一门研究生级别并行计算课程）中，AccelOpt 优化了一个不属于 NKIBench 的 Conv2D 内核，实现了 48.8% 的峰值吞吐量，而去年参考实现的基线仅为 9.54%。基于 AccelOpt 提出的优化方案，我们设计了一道附加题，131 个学生团队中有 33.6% 成功攻克了该挑战。
AccelOpt 论文已被 MLSys 2026 接收。

main-method-shaowz（https://cdn-uploads.huggingface.co/production/uploads/65a76ff1e504d9738d636217/Bolv_a2d6tBc4ldX9wo3U.png）

通过拖拽图像、音频和视频到文本输入框，或点击此处上传。

点击或粘贴此处上传图片

https://huggingface.co/login?next=%2Fpapers%2F2511.15915-

在您的智能体中获取此论文：

hf papers read 2511\.15915

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型3

Genghan/sft-qwen-7b-instruct_GRPO_nki_pure_0920_cluster3 8B• 更新于约3小时前 • 2（https://huggingface.co/Genghan/sft-qwen-7b-instruct_GRPO_nki_pure_0920_cluster3）

Genghan/deepseek-coder-33b-instruct_GRPO_nki_pure_0907_cluster1 33B• 更新于约3小时前 • 1（https://huggingface.co/Genghan/deepseek-coder-33b-instruct_GRPO_nki_pure_0907_cluster1）

Genghan/sft-deepseek-coder-33b-instruct_GRPO_nki_pure_0921_cluster4 33B• 更新于约3小时前 • 2（https://huggingface.co/Genghan/sft-deepseek-coder-33b-instruct_GRPO_nki_pure_0921_cluster4）

引用此论文的数据集1

Genghan/NKIBench 更新于约3小时前 • 21（https://huggingface.co/datasets/Genghan/NKIBench）

引用此论文的Spaces0

没有关联此论文的Space

在Space的README.md中引用 arxiv.org/abs/2511.15915，即可从此页面链接到它。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到一个收藏集中，即可从此页面链接到它。

AccelOpt：一种用于AI加速器内核优化的自我改进LLM智能体系统

论文页面 - AccelOpt：一种用于AI加速器内核优化的自改进LLM智能体系统

摘要

社区

引用此论文的模型3

Genghan/sft-qwen-7b-instruct_GRPO_nki_pure_0920_cluster3 8B• 更新于约3小时前 • 2（https://huggingface.co/Genghan/sft-qwen-7b-instruct_GRPO_nki_pure_0920_cluster3）

Genghan/deepseek-coder-33b-instruct_GRPO_nki_pure_0907_cluster1 33B• 更新于约3小时前 • 1（https://huggingface.co/Genghan/deepseek-coder-33b-instruct_GRPO_nki_pure_0907_cluster1）

Genghan/sft-deepseek-coder-33b-instruct_GRPO_nki_pure_0921_cluster4 33B• 更新于约3小时前 • 2（https://huggingface.co/Genghan/sft-deepseek-coder-33b-instruct_GRPO_nki_pure_0921_cluster4）

引用此论文的数据集1

Genghan/NKIBench 更新于约3小时前 • 21（https://huggingface.co/datasets/Genghan/NKIBench）

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

KForge：面向AI加速器的LLM驱动跨平台内核生成

@AlphaSignalAI：现在你可以在不训练的情况下，将任意LLM的准确率提升2-10倍。大多数团队通过微调或更换更大模型来提高模型准确率…

TokenSpeed：面向智能体工作负载的"光速"LLM推理引擎（5分钟阅读）

我们不再手动优化 LLM 技术栈——现在它实现了自我优化

Ada-MK：基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化

提交意见反馈