AccelOpt:一种用于AI加速器内核优化的自我改进LLM智能体系统
摘要
AccelOpt是一种自我改进的LLM智能体系统,通过迭代生成和优化记忆自主优化AI加速器内核,在AWS Trainium上实现了49%至61%的峰值吞吐量提升,同时比Claude Sonnet 4便宜26倍。
查看缓存全文
缓存时间: 2026/04/20 08:26
论文页面 - AccelOpt:一种用于AI加速器内核优化的自改进LLM智能体系统
来源:https://huggingface.co/papers/2511.15915
https://huggingface.co/login?next=%2Fpapers%2F2511.15915-
摘要
AccelOpt 是一种自改进的LLM智能体系统,通过迭代生成和优化记忆,自主优化AI加速器的内核,以更低的成本实现显著的吞吐量提升。
我们提出了 AccelOpt,一种自改进的大语言模型(LLM)智能体系统,它能够自主优化面向新兴AI加速器的内核,无需专家提供特定硬件的优化知识。AccelOpt 通过迭代生成来探索内核优化空间,并由一个优化记忆驱动,该记忆会整理来自先前遇到的慢-快内核对的经验和见解。我们构建了 NKIBench,这是一个新的基准测试套件,包含从真实 LLM 工作负载中提取的、复杂度各异的 AWS Trainium 加速器内核,用以评估 AccelOpt 的效果。我们的评估证实,AccelOpt 的能力随时间提升,对于 NKIBench 内核,在 Trainium 1 上将平均峰值吞吐量占比从 49% 提升至 61%,在 Trainium 2 上从 45% 提升至 59%。此外,AccelOpt 具有极高的成本效益:使用开源模型时,其内核改进效果与 Claude Sonnet 4 相当,但成本仅为后者的 1/26。代码已开源,地址为 https://github.com/zhang677/AccelOpt。
查看 arXiv 页面(https://arxiv.org/abs/2511.15915)查看 PDF(https://arxiv.org/pdf/2511.15915)项目页面(https://ppl.stanford.edu/accelopt.html)GitHub33(https://github.com/zhang677/AccelOpt)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2511.15915)
社区
论文作者
论文提交者
约3小时前(https://huggingface.co/papers/2511.15915#69e5b6764506644887a3196b)
•
编辑于约3小时前(https://huggingface.co/papers/2511.15915#69e5b6764506644887a3196b)
- AccelOpt 将 NKIBench 内核在 Trainium 1 上的平均峰值吞吐量占比从 49% 提升至 61%,在 Trainium 2 上从 45% 提升至 59%。
- AccelOpt 具有极高的成本效益:使用开源模型时,其内核改进效果与 Claude Sonnet 4 相当,但成本仅为后者的 1/26。
- AccelOpt 与内核语言无关。在来自 FlashInfer-Bench(H100)的 24 个 Triton 内核上,使用 gpt-oss-120b 的 AccelOpt 相比最佳 Triton 基线实现了 1.27 倍的平均加速,在 GQA 解码内核上达到 3.19 倍峰值加速。这一适配仅由第一作者花费 3 天完成。
- 在斯坦福大学 CS149 2025 秋季课程(一门研究生级别并行计算课程)中,AccelOpt 优化了一个不属于 NKIBench 的 Conv2D 内核,实现了 48.8% 的峰值吞吐量,而去年参考实现的基线仅为 9.54%。基于 AccelOpt 提出的优化方案,我们设计了一道附加题,131 个学生团队中有 33.6% 成功攻克了该挑战。
- AccelOpt 论文已被 MLSys 2026 接收。
main-method-shaowz(https://cdn-uploads.huggingface.co/production/uploads/65a76ff1e504d9738d636217/Bolv_a2d6tBc4ldX9wo3U.png)
通过拖拽图像、音频和视频到文本输入框,或点击此处上传。
点击或粘贴此处上传图片
https://huggingface.co/login?next=%2Fpapers%2F2511.15915-
在您的智能体中获取此论文:
hf papers read 2511\.15915
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型3
Genghan/sft-qwen-7b-instruct_GRPO_nki_pure_0920_cluster3 8B• 更新于约3小时前 • 2(https://huggingface.co/Genghan/sft-qwen-7b-instruct_GRPO_nki_pure_0920_cluster3)
Genghan/deepseek-coder-33b-instruct_GRPO_nki_pure_0907_cluster1 33B• 更新于约3小时前 • 1(https://huggingface.co/Genghan/deepseek-coder-33b-instruct_GRPO_nki_pure_0907_cluster1)
Genghan/sft-deepseek-coder-33b-instruct_GRPO_nki_pure_0921_cluster4 33B• 更新于约3小时前 • 2(https://huggingface.co/Genghan/sft-deepseek-coder-33b-instruct_GRPO_nki_pure_0921_cluster4)
引用此论文的数据集1
Genghan/NKIBench 更新于约3小时前 • 21(https://huggingface.co/datasets/Genghan/NKIBench)
引用此论文的Spaces0
没有关联此论文的Space
在Space的README.md中引用 arxiv.org/abs/2511.15915,即可从此页面链接到它。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到一个收藏集中,即可从此页面链接到它。
相似文章
KForge:面向AI加速器的LLM驱动跨平台内核生成
KForge是一个跨平台框架,利用两个协作的基于LLM的智能体,自动生成和优化适用于多种AI加速器的高性能计算内核,在NVIDIA B200和Intel Arc B580硬件上实现了显著的加速效果。
@AlphaSignalAI:现在你可以在不训练的情况下,将任意LLM的准确率提升2-10倍。大多数团队通过微调或更换更大模型来提高模型准确率…
OptiLLM是一个开源代理,通过在推理时增加额外计算,将任意LLM的准确率提升2-10倍,使用了多智能体交叉验证和蒙特卡洛树搜索等技术。
TokenSpeed:面向智能体工作负载的"光速"LLM推理引擎(5分钟阅读)
Lightseek发布TokenSpeed,一款面向智能体工作负载优化的高性能LLM推理引擎,采用编译器驱动的并行技术和先进的内核优化,相关技术已被vLLM采纳。
我们不再手动优化 LLM 技术栈——现在它实现了自我优化
本文描述了一家企业如何实现向自我优化 LLM 技术栈的转型。该系统利用生产环境中的调用追踪数据,自动路由请求并微调模型,从而显著降低了成本并提升了性能。
Ada-MK:基于自动化 DAG 搜索的 LLM 推理自适应 MegaKernel 优化
本文介绍了 Ada-MK,一种利用自动化基于有向无环图(DAG)的搜索来消除运行时分支并减少大语言模型(LLM)推理共享内存使用的自适应 MegaKernel 优化方法。通过集成到 TensorRT-LLM 中,该方法在 NVIDIA Ada GPU 上展示了显著的吞吐量提升,在商业广告系统中相比原生 TensorRT-LLM 性能最高提升 23.6%。