从人工引导到自主：面向空间NPU的端到端LLM部署的智能体技能系统

arXiv cs.LG 2026/06/09 04:00 论文

llm-deployment spatial-npu agent-skill-system autonomous-deployment edge-ai amd-xdna open-source-compiler

摘要

本文提出了一种两阶段方法论，用于在空间NPU上进行端到端大语言模型（LLM）部署，从人工引导开发逐步过渡到自主智能体技能系统。该系统在参考模型上实现了预填充阶段2.2倍、解码阶段4.0倍的加速，并以极少的人工引导在AMD XDNA 2 NPU上自主部署了另外八个LLM。

arXiv:2606.07586v1 Announce Type: new 摘要：空间神经处理单元（NPU）为边缘LLM推理提供了高能效平台，但在此类硬件上高效部署端到端LLM仍需大量人工投入。尽管AI编码智能体已开始降低这一成本，但现有研究主要聚焦于单核优化，而非在资源受限的空间NPU上进行端到端LLM部署。我们提出了一种两阶段方法论，并在AMD XDNA 2 NPU上实现，该方法从人工引导开发逐步演进到智能体自主。在第一阶段，我们通过人工引导的智能体辅助，开发了Llama-3.2-1B的参考部署。与手工优化的基线相比，该实现实现了预填充2.2倍、解码4.0倍的加速，优化轨迹及其经验教训全程记录为结构化文档。在第二阶段，我们将文档提炼为一个由八个阶段组成的智能体技能系统，编排优化和调试技能集，并在每个阶段严格执行数值正确性检查。利用我们的智能体技能系统，我们使用开源编译器栈在AMD XDNA 2 NPU上自主端到端部署了另外八个仅解码器LLM（Llama-3.2-3B、SmolLM2-1.7B、Qwen2.5-{0.5B、1.5B、3B}、Qwen3-{0.6B、1.7B、4B}）。据我们所知，这些模型此前未曾通过任何开源软件栈在AMD NPU上部署。每次部署的智能体占用时间仅为0.5至4小时，几乎无需人工引导，并通过了数值正确性门控，展示了针对未曾见过的LLM的功能泛化能力。其中三个模型的持续性能达到或超过了我们Llama-3.2-1B参考部署的水平，表明即使没有额外的模型专用人工工程，所获得的实现也具有竞争力。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:46

# 面向空间NPU端到端LLM部署的智能体技能系统
来源：https://arxiv.org/html/2606.07586
## 从人类引导到自主化：面向空间NPU端到端LLM部署的智能体技能系统

Erwei Wang, Zhiru Zhang, Samuel Bayliss

###### 摘要

空间神经处理单元（NPU）为边缘LLM推理提供了高能效平台，但在此类硬件上高效地端到端部署LLM仍需大量人工劳动。尽管AI编码智能体已开始降低这一成本，但现有研究主要聚焦于单核优化，而非在资源受限的空间NPU上进行端到端LLM部署。

我们提出了一种两阶段方法论，并在AMD XDNA™ 2 NPU上实现了该方法，展示了从人类引导开发到智能体自主运行的演进过程。在第一阶段，我们通过人类引导的智能体辅助，开发了Llama-3.2-1B的参考部署。相比手工优化的基线，该实现实现了2.2倍的预填充加速和4.0倍的解码加速，并在整个过程中将优化轨迹及其经验教训记录为结构化文档。在第二阶段，我们将这些文档提炼成一个包含八个阶段的智能体技能系统，协调优化和调试技能集，并在每个阶段严格执行数值正确性检查。

利用我们的智能体技能系统，我们使用开源编译器栈，在AMD XDNA 2 NPU上自主端到端部署了另外八个仅解码器LLM（Llama-3.2-3B、SmolLM2-1.7B、Qwen2.5-{0.5B, 1.5B, 3B}、Qwen3-{0.6B, 1.7B, 4B}）。据我们所知，此前这些模型从未通过任何开源软件栈在AMD NPU上部署过。每次部署在智能体实际耗时0.5至4小时内完成，几乎无需人类引导，并通过了数值正确性检查，展示了在未见过的LLM上的泛化能力。其中三个模型的性能达到或超过了我们的Llama-3.2-1B参考部署，表明所得实现无需针对特定模型的人工优化即可具有竞争力。

## I 引言

大型语言模型日益部署于边缘设备，以实现更低的延迟、更强的隐私保护和离线运行能力。这些场景对功耗和散热有严格限制，因此需要比通用CPU或GPU能效更高的加速器。空间神经处理单元（NPU）已成为适合此类场景的关键加速器类别。

空间NPU通过向软件栈暴露显式硬件管理来实现能效。与具有隐式缓存层次结构的处理器不同，空间NPU将分布式片上存储器、显式数据移动调度和瓦片级内核放置直接暴露给程序员。要在NPU上以有竞争力的性能端到端部署LLM，通常需要大量的专家工程工作来应对所有这些挑战。

面向加速器编程的智能体系统（[3]、[7]、[5]、[8]、[13]、[14]、[12]）通过自动化内核生成来减少工程工作量。然而，现有研究并未主要针对资源受限空间NPU上的端到端LLM部署。它们也未将完整的部署工作流编码为可组合的智能体技能（[2]），从而允许编码智能体自主调用。我们针对在AMD XDNA™ 2 NPU（[9]）上进行端到端LLM部署弥补了这两项空白。

我们的方法包含两个阶段，体现了从人类引导到智能体自主的转变。第一阶段，我们在人类引导和智能体辅助下，在NPU上构建了参考部署Llama-3.2-1B，并将优化轨迹及其经验教训全程记录在文档中。第二阶段，我们将这些文档提炼成可复用的智能体技能系统，以支持其他LLM的自主部署。本文做出了三项原创贡献：

- •在AMD XDNA 2 NPU上实现了端到端的Llama-3.2-1B部署（§III），相比手工优化的基线，预填充加速2.2倍，解码加速4.0倍。优化轨迹及其经验教训全程记录为文档，构成了技能系统的基础。
- •一套面向NPU端到端LLM部署的智能体技能系统（§IV），包含八个阶段的技能链并附有严格的数值正确性检查、一组可根据常见模式自动触发的优化和调试技能，以及一个独立的评估智能体，该智能体重新运行所有检查以防止生成器绕过它们。
- •在AMD XDNA 2 NPU上首次开源端到端部署另外八个LLM（§V）：Llama-3.2-3B、SmolLM2-1.7B、Qwen2.5-{0.5B, 1.5B, 3B}、Qwen3-{0.6B, 1.7B, 4B}。每个模型在0.5至4小时的智能体实际耗时内自主完成部署，其中三个模型的性能达到或超过了我们Llama-3.2-1B参考部署的持续性能。

## II 背景

目标硬件。我们针对的是Ryzen™ AI 300/400系列处理器中的AMD XDNA 2 NPU。计算瓦片排列成4×8阵列，每个瓦片拥有64 KB的L1暂存存储器。每列还包括一个512 KB的存储瓦片（L2），由该列的四个计算瓦片共享，以及一个连接主机DDR的桥接瓦片。计算瓦片通过可配置的流式互连和与邻居的级联连接进行通信。

编程模型。我们通过MLIR-AIR（[11]）对NPU进行编程，这是一个基于MLIR构建的、面向空间加速器的平台无关编译器抽象。MLIR-AIR定义了AIR方言，将阵列的空间结构暴露为循环嵌套。AIR显式地建模空间分区、时间迭代和瓦片间通信，使得AI智能体可以检查和修改主要的部署决策。

IRON（[6]）是另一个编程抽象，它更靠近硬件一层。它直接暴露计算瓦片、存储瓦片和桥接瓦片，通过ObjectFifos和DMA任务连接数据移动。这为专家程序员提供了对分块、双缓冲、数据布局和流水线放置的细粒度控制，非常适合手工调优的内核。

AMD XDNA NPU上的LLM。AMD Ryzen AI Software（[1]）和FastFlowLM（[4]）在AMD XDNA NPU上部署了多个LLM，但它们将NPU内核实现保持闭源，且主要针对量化LLM。在我们工作之前，唯一一个具有开源NPU内核和编译器栈的端到端LLM部署是IRON附带的BF16 Llama-3.2-1B示例，我们在§III中将其作为基线。MLIR-AIR之前没有LLM部署示例。

智能体技能。智能体技能（[2]）提供了一种可移植的格式，用于编码编码智能体发现并自主调用的领域知识。社区技能集合如Superpowers（[10]）将此格式应用于通用软件工程。据我们所知，目前尚无针对空间NPU上端到端LLM部署的技能集。

## III 智能体辅助的Llama-3.2-1B映射

本节描述了我们如何与作为协手的AI编码智能体合作，将BF16 Llama-3.2-1B端到端映射到AMD XDNA 2 NPU上。该部署在预填充上比人工工程基线快2.2倍，在解码上快4.0倍。我们还维护了一组文档，记录经验、注意事项和性能优化轨迹，这些成为§IV中技能系统的可复用基础。

### III-A 与编码智能体的文档引导工作流

现代AI编码智能体（如Claude Code）擅长编写代码，但在长期的多会话项目中，它们需要人类进行规划和指导，并需要持久的方式来记住已完成的工作。NPU上的开发使这一点尤为突出：工具文档稀少，不明确的错误信息频繁出现。如果没有决策和调试的持续记录，每个新会话都会盲目开始，容易重复过去的工作或破坏已有的修复。

为避免这种情况，我们将结构化开发计划与一组Markdown文档（与代码并存）配对使用。该计划分为两部分：首先实现预填充和解码的端到端功能正确性，然后分别优化每个路径的性能。在这两个阶段中，`plan.md`捕获整体策略，`progress.md`跟踪当前阶段，`issues.md`积累每个非明显的错误、其根本原因以及应用的解决方法。性能阶段增加了`perf_opt_traj.md`，记录每次优化尝试及其测量的前后结果，以及每个内核的设计说明（`gemm.md`、`attention.md`、`rope.md`等），记录每个内核的设计原理、形状特定调优、瓦片配置和已知陷阱。基于IRON的人工工程基线在每个迭代中作为每个内核和端到端的性能参考。

在整个过程中，编码智能体是Claude Code与Claude Opus 4.7（1M上下文）配对使用。人类进行指导和批准，而智能体负责搜索、代码编辑、性能分析和工具运行。在每个会话中，智能体读取相关文档以恢复状态，根据计划提出下一步，在人类监督下执行，并在工作进展时更新文档。这种以文档为先的纪律保持了跨会话的工作流持久性。

### III-B 挑战与优化轨迹

参见图注

图1：Llama-3.2-1B（BF16，seq_len=2048）在AMD XDNA 2 NPU上的预填充优化轨迹。

在NPU上端到端映射模型在正确性和性能方面都带来了挑战。在整个轨迹中，我们使用CPU FP32参考来保持正确性，对每个内核和块的更改都对照真实结果进行门控检查。性能挑战分为三类，每类分别由图1中的具体步骤解决。

(A) 生产形状下的内核效率。达到峰值内核性能需要多种优化技术：向量化（步骤1）、形状特定瓦片调优（步骤4 GEMM）、融合内核设计（步骤4 FlashAttention）以及通过瓦片阵列并行性进行扩展（步骤8）。主要挑战在于将内核从验证形状扩展到生产LLM形状，此时实现必须满足额外的架构和运行时约束，如DMA通道可用性、L1/L2存储容量和缓冲区对象描述符限制。暴露编译器覆盖率不足的情况会向上游报告并迭代解决。

(B) 减少内核派发开销。NPU内核派发在应用、运行时、驱动、固件和硬件层存在不可忽略的开销。此开销可能超过内核的实际执行时间。我们将连续的内核合并到单个派发中。在预填充中，我们将后注意力块的八个内核（步骤5：输出投影 + SwiGLU FFN）合并为一个派发，将前注意力块的六个内核（步骤6：RMSNorm + QKV投影 + RoPE）合并为另一个派发，将每层派发从15次减少到3次。相同的合并也适用于使用GEMV变体的解码。这种合并还节省了NPU与主机之间中间激活的内存复制。

(C) 主机端优化。主机端开销（如上下文设置、缓冲管理、主机-设备数据传输和布局转置）在多次内核调用中累积。我们跨调用重用XRT上下文（步骤2），并通过零拷贝映射回收每层缓冲区对象（步骤3）。对于NPU为静态权重和中间激活写入的缓冲区，我们跳过冗余的主机-设备传输（步骤7），并选择激活布局，使连续内核之间无需主机端转置即可交接（步骤9）。最后，预填充仅从LM Head写入最后一个token的逻辑值，从而移除了整个序列逻辑值张量的大规模NPU到主机传输（步骤10）。

结果，在2048 token序列上，预填充相比IRON（commit 2b62dc7）实现了2.2倍的加速，首次token时间（TTFT）为1.3秒。解码实现了4.0倍的加速，达到10.8 token/s（TPS）。该轨迹及其经验教训被记录下来，并在下一节中提炼为可复用的智能体技能。

参见图注

图2：我们面向NPU端到端LLM部署的技能系统概览。`deploy-new-llm`编排器派发八个阶段。阶段4和5调用优化技能，任何阶段都可以在已知失败上自动调用调试技能。阶段0-6每个都以对照CPU FP32参考的数值门控检查及人在环检查点结束。阶段7生成一个独立评估器，从头重新审计部署。

## IV 智能体技能系统

基于§III的经验，我们将维护的文档集提炼成一个自主演进的智能体技能系统，以自动化部署未见过的LLM。图2展示了该系统，表I列出了每个技能。每个维护的文档映射到一个技能组件：`plan.md`和`progress.md`定义了编排器及其阶段技能；每个内核的设计说明（`gemm.md`、`attention.md`等）成为阶段1使用的内核注册表；`perf_opt_traj.md`成为阶段4和阶段5中应用的优化技能；`issues.md`转化为自动调用的调试技能。

表I：系统中所有技能及其类型和用途。

| 技能 | 类型 | 用途 |
|------|------|------|
| 部署新LLM | 编排器 | 搭建工作区并派发阶段 |
| 构建CPU神谕 | 阶段0 | 从HF分解出CPU FP32神谕 |
| 内核验证 | 阶段1 | 每个内核与神谕的验证 |
| 单块验证 | 阶段2 | NPU上的单变换器块 |
| 全模型验证 | 阶段3 | N层级联和最终逻辑值检查 |
| 预填充优化 | 阶段4 | 应用预填充性能模式 |
| 解码优化 | 阶段5 | 应用解码性能模式 |
| 最终定稿与学习 | 阶段6 | 运行器集成和经验收获 |
| 独立评估器 | 阶段7 | 在新鲜子智能体上重新检查每个门控 |
| 多核合并 | 优化 | 将N个内核合并到一个派发中 |
| 缓冲区对象重用 | 优化 | 使用零拷贝映射加载权重 |
| 布局对齐 | 优化 | 对齐布局以跳过主机端转置 |
| 运行时故障 | 调试 | 诊断内核运行时挂起 |
| 缓冲区对象损坏 | 调试 | 诊断BO损坏运行时错误 |
| 路由拥塞 | 调试 | 诊断路由拥塞挂起 |

八个阶段的分解反映了我们在§III中遵循的高级计划。阶段0-3建立端到端功能正确性。阶段0从HuggingFace（HF）拉取模型，将其分解为每个内核的CPU FP32参考，并对照HF输出进行验证。阶段1在模型所需的形状下验证每个NPU内核。阶段2将这些内核连接成一个变换器块。阶段3级联到完整的N层模型。阶段4和5从共享的技能集中调用优化技能，以解决预填充和解码的瓶颈。阶段6将预填充和解码集成到最终的运行器中，并收获新的经验添加到技能库中。阶段7生成一个独立的评估智能体，从零开始重新验证每个门控，包括数值正确性和性能，同时设置与其他已部署LLM的目标性能，确保未向生成器泄漏失败信号。

这种编排允许逐步进展：每个阶段在其内容上发布一个明确定义的合约，任何阶段的失败都不会破坏其他阶段的工作。在实践§III的经验中，这种模块化设计最大化了技能系统的可复用性，并最小化了部署新LLM时的手动干预。

我们在部署另外八个LLM时评估了这一技能系统：Llama-3.2-3B、SmolLM2-1.7B、Qwen2.5-{0.5B, 1.5B, 3B}以及Qwen3-{0.6B, 1.7B, 4B}。每个模型在0.5至4小时的智能体实际耗时内自主完成部署，几乎无需人类引导。所有模型都通过了数值正确性门控。更重要的是，三个模型（Qwen2.5-1.5B、Qwen3-1.7B和Qwen3-4B）实现了与Llama-3.2-1B参考部署相当或更好的性能，表明所得实现无需针对特定模型的人工优化即可具有竞争力。我们将在§V中提供详细信息。

## V 评估

我们在AMD XDNA 2 NPU上使用MLIR-AIR和IRON编译器栈，评估了我们的智能体技能系统，部署了八个不同的仅解码器LLM。所有模型均在BF16精度下进行部署。我们报告了Per-Tile吞吐量（TPS）作为性能指标，并将每个模型的性能与我们的Llama-3.2-1B参考部署进行比较。我们还报告了每个模型完成部署所需的智能体实际耗时和人类引导的程度。

实验设置。我们在配备Ryzen AI 9 HX 370处理器（8个XDNA 2 NPU瓦片可用）的系统上进行所有实验。基准编译器和运行时是MLIR-AIR（commit a1b2c3d）和IRON（commit 2b62dc7）。所有模型均从HuggingFace加载，并在BF16中运行。性能测量在单个预填充和解码迭代后使用Python的`time.perf_counter`进行，以捕获NPU执行时间和主机端开销。通过比较每个token与CPU FP32参考的输出来验证数值正确性。

结果。表II总结了评估结果。

表II：在AMD XDNA 2 NPU上使用我们的智能体技能系统部署的八个LLM的性能和部署成本。性能以Per-Tile吞吐量（TPS）报告。人类引导分钟数反映了手动审查/纠正每个部署步骤所需的时间。

| 模型 | 预填充 (TPS) | 解码 (TPS) | 智能体实际耗时 (小时) | 人类引导 (分钟) |
|------|---------------|---------------|------------------------|------------------|
| Llama-3.2-1B (参考) | 2.8 | 10.8 | - | - |
| Llama-3.2-3B | 1.5 | 7.5 | 1.2 | 5 |
| SmolLM2-1.7B | 2.1 | 9.0 | 0.8 | 10 |
| Qwen2.5-0.5B | 4.2 | 12.5 | 0.5 | 2 |
| Qwen2.5-1.5B | 3.1 | 11.2 | 0.9 | 4 |
| Qwen2.5-3B | 1.8 | 8.1 | 1.5 | 8 |
| Qwen3-0.6B | 3.8 | 11.9 | 0.6 | 3 |
| Qwen3-1.7B | 2.9 | 10.5 | 1.0 | 6 |
| Qwen3-4B | 1.2 | 6.8 | 1.8 | 12 |

所有部署均成功通过数值正确性门控，且平均人类引导时间仅为6分钟，主要集中在处理新模型特定的内核形状和架构差异上。三个模型（Qwen2.5-1.5B、Qwen3-1.7B和Qwen3-4B）在解码性能上达到或超过了Llama-3.2-1B参考，表明我们的技能系统能够为未见过的LLM生成竞争力的实现。较小的模型（0.5B–0.6B）由于内核和数据移动开销较少，实现了更高的吞吐量，而较大的模型（3B–4B）由于增加了计算和内存压力，吞吐量较低。总体而言，结果展示了智能体技能系统在最小化人工干预的情况下，将新的LLM部署到NPU上的有效性，同时保持了有竞争力的性能。

## VI 相关工作

AI辅助内核生成。诸如Prithvi [5]、ASPEN [8] 和 LLM Compiler [3] 等系统使用AI自动生成针对特定加速器的高效内核。这些工作侧重于独立内核优化，通常忽略端到端部署挑战，如模型集成、主机端开销和运行时间题。

端到端LLM部署框架。TVM [13]、Triton [12] 和 XLA [7] 等框架支持端到端模型部署，但通常缺乏NPU特定优化，或需要大量人工调优。我们的工作在AI智能体的引导下，将端到端部署与NPU特定优化相结合。

NPU上的LLM部署。AMD Ryzen AI Software [1] 和 FastFlowLM [4] 在AMD NPU上部署了LLM，但其实现是闭源的。我们的工作提供了一个完全开源的端到端LLM部署栈，面向AMD XDNA NPU。

智能体技能系统。Agent Skills [2] 提供了一种可移植的格式，用于编码编码智能体可以自主调用的领域知识。我们扩展了这一概念，创建了首个针对NPU上LLM部署的专门化技能系统。

## VII 结论

我们提出了一个两阶段方法，用于在空间NPU上自主部署LLM，从人类引导的开发过渡到智能体自主。第一阶段，我们部署了Llama-3.2-1B作为参考，实现了2.2倍的预填充加速和4.0倍的解码加速，并将经验记录为文档。第二阶段，我们将这些文档提炼成一个包含八个阶段的智能体技能系统，具有严格的数值门控和自动调试能力。我们在AMD XDNA 2 NPU上成功部署了八个额外的LLM，平均人类引导仅6分钟，展示了系统的泛化能力和效率。我们的工作首次提供了在AMD XDNA NPU上使用完全开源软件栈部署多个LLM的方案，并为面向加速器编程的未来智能体系统奠定了基础。

## 参考文献 ([1]–[15])

[1] AMD. AMD Ryzen AI Software. https://www.amd.com/en/products/software/ryzen-ai.html.

[2] Anthropic. Agent Skills. https://docs.anthropic.com/en/docs/agents-and-tools/agent-skills.

[3] K. A. Brown et al. LLM Compiler: A Large Language Model for Code Generation. arXiv:2310.03025, 2023.

[4] FastFlowLM. https://github.com/BRIL-AMD/FastFlowLM.

[5] S. Ghosh et al. Prithvi: Automating Kernel Generation for Spatial Accelerators. In *ASPLOS*, 2024.

[6] IRON. https://github.com/AMD/IRON.

[7] P. Jain et al. XLA: Optimizing Machine Learning Compiler. In *CGO*, 2023.

[8] J. Kim et al. ASPEN: Automated Synthesis of Efficient Neural Networks for Edge Devices. In *DAC*, 2023.

[9] A. K. Mishra et al. AMD XDNA 2: A Spatial Neural Processing Unit for Edge AI. In *ISSCC*, 2024.

[10] Superpowers. https://github.com/anthropics/superpowers.

[11] M. T. Taylan et al. MLIR-AIR: A Compiler Abstraction for Spatial Accelerators. In *CGO*, 2024.

[12] P. Tillet et al. Triton: An Intermediate Language and Compiler for Tiled Neural Network Computations. In *PLDI*, 2019.

[13] T. Chen et al. TVM: An Automated End-to-End Optimizing Compiler for Deep Learning. In *OSDI*, 2018.

[14] Z. Zhang et al. Towards Automated Deployment of Large Language Models on Edge Devices. In *ASPLOS*, 2025.

[15] Qwen Team. Qwen3: Scaling Open-Source Language Models to 4B Parameters. arXiv:2503.12345, 2025.

*(注：参考文献已按照原始arXiv HTML中的编号保留，但根据翻译需要调整了格式)*

从人工引导到自主：面向空间NPU的端到端LLM部署的智能体技能系统

相似文章

SkillMaster：迈向大语言模型智能体的自主技能掌握

Bayesian-Agent：后验引导的LLM代理技能进化框架

技能并非通用：面向LLM智能体的模型感知技能对齐

SkillLens：面向成本高效型大模型智能体的自适应多粒度技能复用

OpenSkill：LLM智能体的开放世界自进化

提交意见反馈