AgentSpec:通过受控组合理解具身智能体脚手架
摘要
介绍AgentSpec,一个模块化的规范框架,用于系统地组合和分析具身LLM智能体脚手架,揭示了性能取决于脚手架的兼容性和交互效应,而非孤立模块的强度。
arXiv:2606.14674v1 公告类型:新
摘要:LLM智能体越来越多地构建为不仅包含单一模型调用,而是结合了推理、记忆、反思、动作执行和学习的脚手架系统。尽管这些脚手架通常能提升性能,但它们往往嵌入在紧密耦合的流水线中,使得难以隔离组件贡献、比较替代设计或理解模块交互如何塑造智能体行为。我们提出AgentSpec,一个模块化规范框架,将具身智能体表示为具有标准化接口的可重用策略组件的类型化组合。AgentSpec标准化了感知、记忆、推理、反思、动作和可选学习之间的接口,使得组件可以在受控条件下被交换和重新组合。我们在DeliveryBench、ALFRED、MiniGrid和RoboTHOR上实例化该框架,并跨模型主干分析推理、记忆、反思和强化学习模块。我们的结果表明,智能体性能由脚手架的兼容性和交互效应决定,而非孤立模块的强度。特别是,结构化的多粒度记忆改善了长时程状态追踪,推理和记忆在不同环境中非均匀交互,反思在纠错和成本之间权衡,而RL训练的策略在结合部署时脚手架结构优化时表现最佳。AgentSpec为研究、比较和设计可组合的LLM智能体提供了一个受控的基础。我们的代码、基线和交互式游乐场公开在https://agentspec-embodied.github.io。
查看缓存全文
缓存时间: 2026/06/15 08:59
# AgentSpec:通过受控组合理解具身智能体支架 来源:https://arxiv.org/html/2606.14674 Jixuan Chen¹, Jianzhi Shen², Haoqiang Kang¹, Zhi Hong¹, Qingyi Jiang¹, Soham Bose¹, Yiming Zhang¹, Leon Leng³, Amit Vyas¹, Lingjun Mao¹, Siru Ouyang⁴, Kun Zhou¹, Lianhui Qin¹ ¹加州大学圣迭戈分校 ²约翰霍普金斯大学 ³华盛顿大学 ⁴伊利诺伊大学厄巴纳-香槟分校 ###### 摘要 LLM 智能体正越来越多地被构建为并非单一模型调用的结构,而是结合了推理、记忆、反思、行动执行和学习的支架系统。虽然此类支架通常能提升性能,但它们往往嵌入在紧密耦合的流水线中,这使得隔离组件贡献、比较替代设计方案或理解模块交互如何塑造智能体行为变得困难。我们引入 **AgentSpec**,一个模块化规范框架,它将具身智能体表示为带有标准化接口的可复用策略组件的类型化组合。AgentSpec 标准化了感知、记忆、推理、反思、行动以及可选学习之间的接口,使得组件可以在受控条件下被替换和重组。我们在 DeliveryBench、ALFRED、MiniGrid 和 RoboTHOR 上实例化此框架,并跨模型主干分析推理、记忆、反思和强化学习模块。我们的结果表明,智能体性能由支架兼容性和交互效应主导,而非孤立模块的强度。特别是,结构化多粒度记忆改进了长程状态跟踪,推理和记忆在不同环境中非均匀地交互,反思在修正和成本之间进行权衡,而经 RL 训练的策略在与部署时支架结构一起优化时组合效果最佳。AgentSpec 为研究、比较和设计可组合的 LLM 智能体提供了一个受控基础。我们的代码、基线和交互式游乐场公开发布于 https://agentspec-embodied.github.io/。 ## 1 引言 参见图注 图 1:AgentSpec 将紧密耦合的具身智能体流水线转变为一个带有固定类型化接口的受控模块化设计空间,实现了系统性的模块组合,并揭示了推理、记忆、反思、行动和学习之间的交互效应。 大型语言模型 (LLM) 的最新进展显著提升了端到端推理能力。然而,解决复杂的现实世界任务(尤其是具身环境中的长程决策)所需的不仅仅是更强的下一步预测能力 (Ahn et al., 2022; Huang et al., 2022; Wang et al., 2023a)。成功取决于在多轮交互中协调感知、记忆、推理和行动。最近的智能体框架,如 OpenClaw¹,说明了这种转变:它们不是依赖单一模型调用,而是通过工具执行、状态跟踪和持久化记忆来增强基础 LLM(例如 GPT-5)。因此,它们的能力不仅来自模型本身,更来自于将这些组件组合成一个连贯的决策系统。 然而,尽管能力日益增强,大多数智能体系统仍然是紧密耦合的流水线。最近的模块化智能体框架和认知架构,如 CoALA (Sumers et al., 2023)、AgentSquare (Shang et al., 2024)、AgentGym (Xi et al., 2025)、Voyager (Wang et al., 2023a) 和 OpenClaw,将推理、记忆、工具使用和行动执行暴露为可复用的构建块。然而,它们通常被设计为完整的系统或针对高性能配置进行优化,而不是作为归因组件级和交互级效应的受控平台。因此,当推理、记忆、反思和强化学习交织在一起时,改进仍然难以隔离和泛化。该领域仍缺乏对基本设计问题的原则性回答:哪些推理策略在何种设置下有效;记忆何时有用以及应采用何种形式;强化学习何时能与推理策略良好组合;以及反思何时能改善决策而不仅仅是增加成本。 我们通过 AgentSpec 填补了这一空白,这是一个使智能体组合明确化的模块化框架。它将智能体表示为感知-记忆-推理-反思-行动的循环,并附带强化学习作为进一步优化行为的可选模块。感知将原始观察转换为标准化的状态表示;记忆检索相关的历史和知识;推理提出决策;反思批评或修正该决策;行动则在环境中执行决策。通过标准化接口,AgentSpec 将许多现有的智能体设计 (Packer et al., 2023; Park et al., 2023; Li et al., 2025b) 转化为共享设计空间中的特例,使得组件可以被交换、重组和研究,而无需重建整个系统。这使得能够构建更强的智能体并进行更清晰的科学分析,但需要评估设置中的模块交互是可观察的,而不是隐藏在一次性输出中。 我们使用具身智能体作为模块化智能体设计的诊断环境,因为具身任务是闭环的:每个动作都会改变智能体未来的观察、可用选择和累积的历史。因此,性能不仅取决于单个模块的质量,还取决于整个决策循环内的兼容性。例如,详细的轨迹记忆可能有助于长程状态跟踪,但如果检索到的上下文过于低层,可能会分散面向规划的推理器的注意力;相反,当记忆未能保留后续决策所需的任务状态时,即使强大的推理也可能失败。这些交互效应是 AgentSpec 设计所要研究的核心问题。 我们在四个具身基准上评估 AgentSpec,这些基准强调了模块化决策的互补方面:DeliveryBench (Mao et al., 2025) 强调资源和截止日期约束下的长程规划;ALFRED (Shridhar et al., 2020) 需要组合式家庭操作和持久的任务状态跟踪;MiniGrid (Chevalier-Boisvert et al., 2023) 隔离了符号导航和部分可观测性;RoboTHOR (Deitke et al., 2020) 则在逼真的 3D 场景中测试第一人称导航。它们共同变化了任务时长、观察模态、真实性和控制难度,使我们能够研究模块组合何时有帮助、何时有害,以及哪些设计原则可以跨设置迁移。 我们的实验揭示了三个一般原则。首先,模块兼容性与模块强度同等重要:推理结构化局部决策,而记忆在长程任务中保留任务状态,但只有当记忆的表示与推理策略匹配时才有帮助。其次,最佳组合依赖于环境。较短或更符号化的任务更依赖于逐步推理,而长程具身任务的瓶颈在于状态跟踪和轨迹连贯性。第三,有效性必须与效率一起评估:更强的性能并非简单来自更多 token 或更深度的思考,轻量级但良好匹配的组合往往比重量级但错位的组合实现更好的性能-成本权衡。 总体而言,这些发现表明,模块化智能体设计应被视为一个结构化和可分析的设计空间,而不是一组可互换的启发式方法。AgentSpec 提供了一个受控框架,用于在共享接口下组合推理、记忆、反思和学习模块,从而实现跨主干、任务和效率约束的系统性比较。除了提高基准性能,我们的结果还揭示了可复用的设计原则:应根据任务时长、状态跟踪需求、表示兼容性和推理成本来选择模块。这也突出了一个重要的未来方向:模块化组件可能需要在推理时附加推理或记忆的同时,与策略进行联合优化,使得经过学习的智能体在部署时保持与其支架的兼容性。 总的来说,我们的贡献有三方面。首先,我们引入了 AgentSpec,一个用于具身 LLM 智能体的类型化模块化规范,它将感知、记忆、推理、反思、行动执行和可选学习分离为具有共享接口的可互换组件。其次,我们在四个具身基准和多个模型主干上实例化此规范,使得通常纠缠在完整智能体流水线中的模块选择能够进行受控比较。第三,我们利用这个受控设计空间来识别可复用的支架智能体设计原则,表明记忆仅在其表示与下游推理器匹配时才有用,多粒度记忆是长程任务的稳健默认选择,反思在修复局部执行错误时最有价值,并且经过 RL 训练的策略应与其部署时将使用的支架一起优化。 ## 2 相关工作 **基于 LLM 的智能体系统。** 现代 LLM 智能体通常被构建为集成推理、记忆、工具使用、反思和行动执行的多步流水线 (Park et al., 2023; Hong et al., 2023; Chen et al., 2023; Wu et al., 2024; Li et al., 2023)。受认知启发的框架如 CoALA (Sumers et al., 2023) 将智能体形式化为功能模块的组合,而 Voyager 和 AgentGym 等系统则表明智能体可以积累技能或跨环境改进 (Wang et al., 2023a; Xi et al., 2025; Lin et al., 2025; Huang et al., 2025)。然而,大多数现有系统被提出为完整的端到端设计,其推理、记忆、感知和行动组件与特定任务的提示、控制逻辑或环境接口紧密耦合,尤其是在长程具身设置中 (Deitke et al., 2020; Mao et al., 2025)。这使得隔离组件、用替代方案替换它们或系统地研究模块交互如何影响性能变得困难。相比之下,AgentSpec 将智能体视为具有标准化接口的可复用策略组件的显式组合,实现了受控的替换、重组和分析。 **智能体设计空间。** 先前的工作已经探索了广泛的智能体组件,包括推理策略(如 chain-of-thought 提示 (Kojima et al., 2022; Wang et al., 2022)、基于搜索的规划 (Yao et al., 2023a; Zhou et al., 2023) 和自我修正 (Madaan et al., 2023; Shinn et al., 2023; Kumar et al., 2024)),以及记忆机制(如扁平缓冲区 (Zhong et al., 2024)、层次化存储 (Packer et al., 2023; Chhikara et al., 2025)、图或层次化记忆 (Li et al., 2025a; Rasmussen et al., 2025; Anokhin et al., 2024; Zhang et al., 2025b)、检索增强记忆 (Qian et al., 2025; Fang et al., 2025a; Liu et al., 2026) 以及程序性或自组织记忆 (Wang et al., 2024; Zheng et al., 2023; Hu et al., 2026a; Nan et al., 2025))。最近的框架进一步自动化了架构搜索 (Hu et al., 2024; Zhang et al., 2024; Li et al., 2026b),AgentSquare (Shang et al., 2024) 标准化了模块以进行自动重组。然而,这些方法主要旨在在目标指标下发现高性能配置,对于配置为何有效、每个模块贡献多少、或模块何时产生建设性或破坏性交互,提供的见解有限。AgentSpec 不仅仅搜索最佳智能体,它将智能体设计空间暴露为受控平台,用于跨任务和主干分析组件级和交互级效应。 ## 3 模块化设计 参见图注 图 2:AgentSpec 框架概览。AgentSpec 将具身决策分解为类型化的感知-记忆-推理-反思-行动循环,其中转换反馈更新记忆,可选学习优化模块策略或控制器。 我们将 AgentSpec 实例化为一个兼容 Gym 的智能体包装器,围绕模块化的**感知-记忆-推理-反思-行动** 循环组织,如图 2 所示。关键的设计选择不仅仅是模块化,而是接口控制,这意味着每个模块接收并发出类型化的中间对象,因此更改一个组件不需要重写智能体的其余部分。交互可以被视为一个部分可观测的序贯决策问题,其中环境建模为 \((S, O, A, T, \rho)\),包含隐状态、观察、动作、转移动力学和奖励。该设计分离了在概念上不同但通常在具身智能体系统中纠缠在一起的能力:解释异构观察、保留任务相关的历史、推理动作、修订决策以及执行有效的环境动作。在每个时间步 \(t\),智能体接收任务描述 \(d\) 和原始观察 \(o_t \in O\)。
相似文章
AgentSPEX:一种智能体规范与执行语言
AgentSPEX 提出了一种领域专用语言,用于构建模块化、可解释的大模型智能体工作流,具备显式控制流、状态管理与可视化编辑器,性能优于现有 Python 耦合框架。
Agent S2:一种面向计算机使用智能体的组合式通才-专才框架
Agent S2 是一种新型的计算机使用智能体组合式框架,通过采用混合定位(Mixture-of-Grounding)与主动分层规划(Proactive Hierarchical Planning)技术,在多个基准测试中达到了最先进的性能。
多并非总是更好:大语言模型智能体搭建中的跨组件干扰
本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设,通过系统实验证明,跨组件干扰往往会导致性能下降。研究发现,在各种模型规模下,更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。
AgentScope中的超大规模多智能体仿真
本文介绍了AgentScope平台的增强功能,包括基于Actor的分布式机制和灵活的环境支持,以实现可扩展、高效且用户友好的超大规模多智能体仿真。
你的智能体拥有基因组:LLM驱动的自主智能体的序列级行为分析与运行时治理
本文介绍了Base Sequence Analysis框架,该框架将LLM智能体的运行时行为编码为紧凑序列,揭示了高风险模式(如'P-X-P'三元组)和验证缺失。它提出了Governor,一个运行时干预系统,使任务成功率提高了6.2%,并将令牌消耗减少了44%。