AutoMCU：基于LLM的多智能体系统的可行性优先MCU神经网络定制

arXiv cs.LG 2026/05/22 04:00 论文

llm multi-agent neural-network microcontroller edge-intelligence hardware-aware model-compression

摘要

AutoMCU是一个利用LLM的多智能体系统，可自动为微控制器单元设计神经网络，在确保硬件约束可行性的同时显著缩短定制时间。

arXiv:2605.21560v1 公告类型：新摘要：在微控制器单元（MCU）上部署神经网络对于边缘智能至关重要，但由于内存、存储和计算资源紧张，仍然具有挑战性。现有方法，如模型压缩和硬件感知神经架构搜索（HW-NAS），通常依赖代理指标，搜索成本高，且未能完全弥合架构设计与验证部署之间的差距。本文提出AutoMCU，一种基于大语言模型（LLM）的可行性优先多智能体系统，用于在MCU约束下自动定制神经网络。给定自然语言任务需求和硬件规格，AutoMCU迭代生成结构化的架构候选，在训练前通过供应商工具链反馈过滤不可行设计，在受控协议下评估可行模型，并通过后端接地部署分析验证可部署性。AutoMCU包含两个关键机制：1）硬件在环架构生成，用于在RAM和Flash约束下早期消除不可部署的候选；2）状态隔离的多智能体调度，用于稳定协调提议、训练、评估和部署阶段。在严格MCU约束下对CIFAR-10和CIFAR-100的实验表明，AutoMCU实现了具有竞争力的准确率，同时将定制时间减少到约1–2小时，而代表性的面向MCU的HW-NAS基线需要数百GPU小时。在NAS-Bench-201上与ColabNAS和基于LLM的NAS方法GENIUS的比较进一步展示了AutoMCU的有效性和稳定性。在多个STM32微控制器上的实际设备部署验证了其在MCU规模边缘智能中的实际适用性。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:49

# AutoMCU: 基于LLM多智能体系统的可行性优先微控制器神经网络定制

**来源：** https://arxiv.org/html/2605.21560

彭林岱,  , 周子杰, 徐新超, 王俊华, 吴晓, 段立新

本工作部分受国家自然科学基金（批准号62172342）、广东省基础与应用基础研究基金（批准号2025A1515012825）、宜宾市科技计划（批准号2025JC014）以及深圳市龙华区科技创新项目（批准号20260309G23410662）资助。

P. Dai, Z. Zhou, X. Wu 属于西南交通大学计算机与人工智能学院，成都 611756。（电子邮件：[email protected]; [email protected]; [email protected]）

X. Xu, L. Duan 属于电子科技大学深圳高等研究院，深圳 518110。（电子邮件：[email protected]; [email protected]）

J. Wang 属于东北大学计算机科学与工程学院，沈阳 110819。（电子邮件：[email protected]）

###### 摘要

在微控制器上部署神经网络对于边缘智能至关重要，但由于内存、存储和计算资源的严格限制，这仍然充满挑战。现有方法，如模型压缩和硬件感知神经架构搜索，通常依赖代理指标，搜索成本高，且未能完全弥合架构设计与验证部署之间的差距。本文提出AutoMCU，一个基于大语言模型的多智能体系统，用于在微控制器约束下进行自动化神经网络定制，其核心原则是可行性优先。给定自然语言描述的任务需求和硬件规格，AutoMCU迭代生成结构化的架构候选方案，在训练前通过供应商工具链反馈过滤不可行的设计，在受控协议下评估可行模型，并通过基于后端的部署分析验证可部署性。AutoMCU包含两个关键机制：1）硬件在环的架构生成，在RAM和Flash约束下早期淘汰不可部署的候选方案；2）状态隔离的多智能体调度，用于稳定协调提案、训练、评估和部署阶段。在严格MCU约束下对CIFAR-10和CIFAR-100的实验表明，AutoMCU在达到竞争性精度的同时，将定制时间缩短至约1-2小时，而代表性的MCU定向HW-NAS基线则需要数百GPU小时。与ColabNAS和基于LLM的NAS方法GENIUS在NAS-Bench-201上的比较进一步证明了AutoMCU的有效性和稳定性。在多个STM32微控制器上的实际设备部署验证了其对MCU规模边缘智能的实用适用性。

## I. 引言

随着物联网设备的迅速普及，将神经网络直接部署在微控制器上已成为实现普适边缘智能的关键推动力，支持计算机视觉[13](https://arxiv.org/html/2605.21560#bib.bib1)、[17](https://arxiv.org/html/2605.21560#bib.bib2)、语音识别[5](https://arxiv.org/html/2605.21560#bib.bib4)、[6](https://arxiv.org/html/2605.21560#bib.bib5)和自然语言处理[1](https://arxiv.org/html/2605.21560#bib.bib3)等广泛应用。这种范式对于智能家居、工业自动化、医疗和农业等物联网场景尤其具有吸引力，因为这些场景对低延迟、隐私保护和能效有严格要求。然而，微控制器在计算能力、片上内存和非易失性存储方面受到严重限制，使得现代神经网络模型的部署极具挑战性。为满足这些约束，必须仔细定制神经网络模型以匹配目标MCU的资源预算。现有技术如剪枝、量化和知识蒸馏可以减小模型规模和计算成本，但在具体MCU平台上部署神经网络通常仍需在架构设计、训练、模型转换和硬件验证之间反复进行手动迭代，如图1所示。开发者必须考虑RAM和Flash限制，选择架构配置，训练候选模型，并测试它们是否能被特定供应商的后端（如TFLite Micro[9](https://arxiv.org/html/2605.21560#bib.bib55)或STM32Cube.AI）转换和执行。实际上，那些在代理指标（如参数数量或MACs）下看似高效的模型，仍可能因不支持的算子、后端特定的内存分配行为或转换/运行时约束而部署失败。这种试错式工作流显著增加了开发成本，提高了在MCU上部署神经网络的障碍。

![图1：针对MCU的神经网络定制的一般过程。](https://arxiv.org/html/2605.21560/x1.png)

图1：针对MCU的神经网络定制的一般过程。

大量先前的工作探索了针对资源受限设备的自动或半自动模型设计。压缩和轻量化设计方法通过剪枝、量化、蒸馏或手工设计的高效架构来降低模型复杂度[15](https://arxiv.org/html/2605.21560#bib.bib60)、[21](https://arxiv.org/html/2605.21560#bib.bib46)、[40](https://arxiv.org/html/2605.21560#bib.bib61)、[10](https://arxiv.org/html/2605.21560#bib.bib47)。神经架构搜索和硬件感知NAS进一步在准确性和效率目标下自动化架构优化[48](https://arxiv.org/html/2605.21560#bib.bib62)、[36](https://arxiv.org/html/2605.21560#bib.bib63)、[35](https://arxiv.org/html/2605.21560#bib.bib9)、[14](https://arxiv.org/html/2605.21560#bib.bib59)、[18](https://arxiv.org/html/2605.21560#bib.bib48)、[27](https://arxiv.org/html/2605.21560#bib.bib34)、[39](https://arxiv.org/html/2605.21560#bib.bib31)、[7](https://arxiv.org/html/2605.21560#bib.bib35)、[41](https://arxiv.org/html/2605.21560#bib.bib20)、[26](https://arxiv.org/html/2605.21560#bib.bib33)。最近，大语言模型也被探索用于架构生成和搜索空间探索[47](https://arxiv.org/html/2605.21560#bib.bib67)。虽然这些方向显著推进了自动化模型设计，但对于面向部署的MCU定制，仍存在重要挑战。特别是，许多现有方法优化的是代理硬件指标或预定义的搜索目标，而不是在硬性内存和算子约束下直接优先考虑经过后端验证的可部署性。此外，架构搜索、训练和部署验证通常被视为独立阶段，在整体工作流中留下大量手动工作。

为弥补这一差距，我们提出AutoMCU，一个基于LLM的可行性优先多智能体系统，用于微控制器约束下的端到端神经网络定制。AutoMCU针对一个互补且实际重要的场景：在硬性MCU约束下快速发现可部署模型，而这些约束的后端特定可行性难以通过分析表征。AutoMCU不进行无约束的架构生成或全局优化完整的准确性与效率帕累托前沿，而是在一个闭环中耦合约束候选提案、受控训练和经过后端验证的部署验证。LLM用于根据明确的MCU约束和汇总的历史反馈生成并优化结构化候选方案，而模块化编排则通过稳定的结构化接口协调提案、训练、评估和转换阶段。

本工作的主要贡献总结如下：

- • 我们将MCU神经网络定制从代理驱动的硬件感知搜索转变为基于部署的可行性优先搜索，其中经过后端验证的可部署性被用作迭代反馈信号，而不仅仅是最终验证步骤。
- • 我们开发了一种硬件在环的架构生成机制，将LLM生成的候选方案约束为结构化且可构建的架构规范，并通过供应商后端分析在训练前过滤不可行设计，避免在不可部署模型上的浪费优化。
- • 我们设计了一种由监督者驱动的多智能体编排机制，包含状态隔离的智能体和结构化摘要交换，能够在提案、训练、评估、转换和基于历史记录的优化阶段实现稳定的长周期自动化。
- • 我们针对面向MCU的NAS基线和最近的基于LLM的架构搜索方法（包括μNAS [26](https://arxiv.org/html/2605.21560#bib.bib33)、ColabNAS [12](https://arxiv.org/html/2605.21560#bib.bib66)和GENIUS [47](https://arxiv.org/html/2605.21560#bib.bib67)）进行了实证评估。结果连同消融研究表明，经过后端验证的可行性检查、历史反馈和模块化编排提高了寻找可部署MCU神经网络的效率和稳定性。

本文其余部分组织如下：第二部分回顾相关工作。第三部分介绍AutoMCU系统。第四部分评估性能。最后，第五部分给出结论并讨论未来工作。

## II. 相关工作

### II-A 模型压缩与轻量化设计方法

将神经网络部署在资源受限的MCU平台上的传统方法通常依赖手工设计的轻量级架构，如MobileNet [37](https://arxiv.org/html/2605.21560#bib.bib36)和ShuffleNet [34](https://arxiv.org/html/2605.21560#bib.bib38)，并结合模型压缩技术[25](https://arxiv.org/html/2605.21560#bib.bib49)、[31](https://arxiv.org/html/2605.21560#bib.bib51)，包括剪枝[16](https://arxiv.org/html/2605.21560#bib.bib45)、[33](https://arxiv.org/html/2605.21560#bib.bib64)、[19](https://arxiv.org/html/2605.21560#bib.bib65)、[4](https://arxiv.org/html/2605.21560#bib.bib52)和量化[15](https://arxiv.org/html/2605.21560#bib.bib60)、[21](https://arxiv.org/html/2605.21560#bib.bib46)、[40](https://arxiv.org/html/2605.21560#bib.bib61)、[44](https://arxiv.org/html/2605.21560#bib.bib50)。轻量级架构通过算子级别的设计选择（如深度可分离卷积、通道混洗和分组操作）降低计算成本，而压缩方法则通过移除冗余参数或降低数值精度进一步减小模型规模和算术复杂度。虽然这些技术在一定程度上可以缓解资源压力，但它们通常是为固定或相对同质的硬件设置开发的，缺乏对MCU设备高度碎片化和多样化资源约束的适应性。在实践中，要实现一个可部署的模型，通常需要专业工程师针对每个目标设备手动反复调整网络深度、通道宽度和压缩策略。此外，压缩通常作为模型训练后的后处理步骤应用，难以与硬件感知评估和部署工具链无缝集成。因此，这些方法成本高、依赖专家知识，且不适合MCU场景中完全自动化的端到端模型定制工作流。

### II-B NAS 与 HW-NAS

NAS提供了一种系统化的方法来自动化神经网络设计，而硬件感知NAS则通过将设备相关指标（如延迟、内存占用或能耗）显式纳入搜索目标来扩展这一范式。早期的硬件感知方法主要依赖进化算法[38](https://arxiv.org/html/2605.21560#bib.bib11)、[8](https://arxiv.org/html/2605.21560#bib.bib30)或强化学习[48](https://arxiv.org/html/2605.21560#bib.bib62)、[49](https://arxiv.org/html/2605.21560#bib.bib18)、[39](https://arxiv.org/html/2605.21560#bib.bib31)来探索效率约束下的架构空间。这些方法展示了自动平衡准确性与硬件成本的潜力，但它们通常需要评估大量候选架构，导致巨大的搜索开销。为提高搜索效率，基于权重共享和超网络的方法[2](https://arxiv.org/html/2605.21560#bib.bib54)、[30](https://arxiv.org/html/2605.21560#bib.bib12)、[45](https://arxiv.org/html/2605.21560#bib.bib13)、[3](https://arxiv.org/html/2605.21560#bib.bib32)使得许多候选子网络在训练期间共享参数。这种范式显著降低了搜索成本，但也引入了子网络之间的耦合，并且通常需要精心预定义的搜索空间，这可能在多样化的MCU约束下限制灵活性。免训练或零样本NAS方法[24](https://arxiv.org/html/2605.21560#bib.bib15)、[32](https://arxiv.org/html/2605.21560#bib.bib16)、[28](https://arxiv.org/html/2605.21560#bib.bib17)通过使用无需完整训练即可计算的分析推导指标对架构进行排序，进一步降低成本。然而，它们的有效性取决于这些指标与下游性能之间的相关性，这在不同的数据集、架构和部署设置中可能有所变化。

与我们的目标场景更相关的是，最近的工作探索了针对紧凑型设备的资源约束和部署感知模型搜索，包括面向MCU的框架如μNAS [26](https://arxiv.org/html/2605.21560#bib.bib33)和ColabNAS [12](https://arxiv.org/html/2605.21560#bib.bib66)。这些方法推动了受限平台上高效模型设计的进步，但许多方法仍然优化估计的硬件指标、预定义的资源目标或有界搜索空间，而不是通过具体的MCU工具链直接优先考虑经过后端验证的可部署性。此外，架构搜索、模型训练和部署验证通常未完全集成到单一闭环工作流中。因此，在目标MCU上的实际部署可能仍需额外的手动迭代来解决算子不兼容、内存溢出或转换失败等问题。

### II-C LLM辅助的架构设计与搜索

最近的研究开始探索利用LLM进行神经架构生成、搜索空间探索和候选优化[47](https://arxiv.org/html/2605.21560#bib.bib67)。与传统的搜索控制器相比，LLM提供了一个灵活的接口，可以根据文本指令、历史反馈和显式约束生成结构化的设计提案。这一新兴方向表明，语言引导的搜索可以补充传统的NAS流程，特别是在设计需求难以编码为固定搜索规则的情景中。然而，现有的基于LLM的架构设计和搜索方法通常并非为MCU部署而开发。它们大多关注传统深度学习设置下的架构生成质量或搜索效率，没有显式建模严格的Flash/SRAM预算、算子支持约束或后端特定的转换行为。更重要的是，它们通常不与部署后端形成闭环来验证生成的候选方案是否能在目标MCU平台上实际执行。这限制了它们在面向部署的MCU定制中的适用性。

AutoMCU：基于LLM的多智能体系统的可行性优先MCU神经网络定制

相似文章

NeuroMAS：将多智能体系统视为具有联合强化学习的神经网络

AutoLLMResearch：通过从低成本学习来优化高成本，训练研究智能体以自动化大型语言模型实验配置

EvolveMem: 通过AutoResearch实现LLM智能体的自演化记忆架构

UnityMAS-O：一种基于LLM的多智能体系统的通用RL优化框架

QuantAgent：基于价格驱动的多智能体大语言模型高频交易框架

提交意见反馈