@dair_ai: 系统规模扩展是智能体AI的下一个真正瓶颈。如果你构建智能体编排层,这是一张清晰的地图…

X AI KOLs Following 论文

摘要

本文认为,智能体AI的下一个瓶颈是系统规模扩展(围绕基础模型设计“框架”),而不仅仅是模型规模扩展,并介绍了CheetahClaws(一个Python原生参考框架),以及对三个核心瓶颈的分析:上下文治理、可信内存和动态技能路由。

系统规模扩展是智能体AI的下一个真正瓶颈。 如果你构建智能体编排层,这是一张清晰的地图,展示了工程杠杆的实际所在。实验室拥有模型,你拥有框架,而框架正日益成为智能体质量成败的关键。 默认的心理模型仍然将全部权重放在基础模型上——模型越大,智能体越好。但智能体行为实际上是从其周围的整个堆栈中涌现出来的:记忆基底、上下文构建器、技能路由、编排循环,以及验证与治理层。 这项新研究将这一堆栈称为“框架”,并认为我们应该将其视为设计和评估的一等对象。它指出了三个核心扩展瓶颈:上下文治理、可信内存和动态技能路由。它还发布了CheetahClaws,一个Python原生参考框架,并将其与Claude Code和OpenClaw进行了比较。 论文:https://arxiv.org/abs/2605.26112 在我们的学院中学习构建有效的AI智能体:https://academy.dair.ai
查看原文
查看缓存全文

缓存时间: 2026/05/26 16:55

系统扩展是智能体AI中下一个真正的瓶颈。

如果你正在构建智能体编排层,这是一份清晰的图谱,展示了工程杠杆真正所在。实验室拥有模型。你拥有执行框架,而智能体的质量越来越多地取决于这个框架。

默认的心理模型仍然将所有重量放在基础模型上:模型越大,智能体越好。但智能体行为实际上是从其周围的整个堆栈中涌现出来的:记忆基板、上下文构造器、技能路由、编排循环,以及验证和治理层。

这项新研究将这一堆栈称为执行框架,并主张我们应将其视为设计和评估的一等对象。它指出了扩展过程中的三个核心瓶颈:上下文治理、可信记忆和动态技能路由。同时还发布了 CheetahClaws,一个Python原生参考执行框架,并将其与Claude Code和OpenClaw进行了比较。

论文:https://arxiv.org/abs/2605.26112

在我们的学院中学习构建有效的AI智能体:https://academy.dair.ai


从模型扩展到系统扩展:扩展智能体AI的执行框架

来源:https://arxiv.org/html/2605.26112 尚丁·顾 加州大学伯克利分校 本文正在积极撰写中,欢迎任何建设性评论和建议,请发送至 [email protected]\。

摘要

本文研究了智能体AI中下一个主要瓶颈,即系统扩展,而不仅仅是模型扩展:围绕基础模型设计的可审计、持久、模块化和可验证的架构。我们将这一转变称为扩展执行框架:将围绕基础模型的结构化执行层视为设计、评估和优化的一等对象。大型语言模型(LLM)的最新进展使得智能体能够使用工具、检索信息、维护记忆并执行长期工作流。然而,评估仍然以模型为中心,将智能体简化最终任务成功或基准准确率,而将记忆、检索、工具使用、编排、验证和治理视为次要实现细节。这种框架越来越不充分:智能体性能来自基础模型、记忆基板、上下文构造器、用于工具和子智能体的技能路由层、编排循环以及验证与治理层之间的相互作用。这些组件共同构成了智能体执行框架,即将模型能力转化为长期智能体行为的系统。因此,我们通过智能体AI中的三个核心瓶颈来研究扩展执行框架上下文治理可信记忆动态技能路由,以及协调和约束它们的编排与治理机制。我们进一步概述了执行框架级别基准的研究议程,该议程将系统扩展操作化,超越一次性任务成功,以衡量轨迹质量、记忆卫生、上下文效率、通信保真度、验证成本以及随时间推移的安全演化。与该框架一起,我们开发并发布了 CheetahClaws1,一个Python原生参考执行框架,并将其与Claude Code和OpenClaw一起作为具体的比较点,使执行框架级别的设计选择明确化。我们的主要主张是,智能体AI未来的进步将同样依赖于系统设计,而不仅仅是更强的基础模型。

1

https://github.com/SafeRL-Lab/cheetahclaws

1 引言

近期AI进步的主流叙事一直是模型扩展:更大的模型、更多的数据、更强的后训练、更高的基准分数(OpenAI, 2026; Anthropic, 2026; Google, 2026)。对于智能体AI来说,这一叙事现在已不完整。一旦基础模型嵌入到工具、终端、浏览器、代码仓库、记忆存储和外部服务中,其行为就不再由模型单独决定,而是由整个系统决定:上下文如何构造,记忆如何检索,工具如何调用,子智能体如何路由,动作如何验证,以及失败如何审计。

因此,我们的核心主张是:智能体AI应作为一个系统扩展问题来研究和评估,而不仅仅是模型扩展问题。通过模型扩展,我们指独立基础模型的改进,包括模型大小、训练数据、后训练和原始推理能力。通过系统扩展,我们指周围架构的改进,包括记忆、上下文构造、跨工具和子智能体的技能路由、编排以及验证与治理,以及这些组件如何随时间适应。等价地,这是一个扩展执行框架的问题:改进围绕基础模型的结构化执行层,使这些系统组件能够在长期内可靠工作。我们的主张并非模型扩展不再重要;而是,一旦模型达到足够的能力阈值,长期智能体性能的许多额外增益越来越依赖于模型周围系统的设计。

现代的智能体系统已经展示了扩展执行框架在实践中是什么样的。生产级执行框架如Claude Code(Anthropic, 2025a)和OpenClaw(Team, 2026)将基础模型与工具、子智能体和持久项目记忆耦合(详见§3.1);研究侧执行框架如SWE-agent进一步表明,即使使用固定的骨干模型,精心设计的工具模式本身也能显著提高基准准确率(Yang et al., 2024)。这些系统表明,实际的智能体能力并非仅来自下一个词元预测,而是来自基础模型与其周围执行框架之间的相互作用。因此,相关的研究对象不仅仅是模型加提示(prompt),而是一个结构化执行系统——这一观点在近期关于以代码为中心的智能体执行框架的工作中日益得到体现(Ning et al., 2026)。

这一视角得到了近期实证发现的强调。一项对智能体基准的领域层面分析发现,许多结果并未将能力与成本、提示策略和示例分离,并且一旦控制这些因素,结果就不再是帕累托最优的(Kapoor et al., 2024)。与此一致的是,仅重新设计智能体-计算机界面,同时保持底层模型不变,就能显著提高SWE-bench的准确率(Yang et al., 2024)。因此,通常被报告为模型分数的东西,实际上是模型加执行框架的分数。上下文长度是另一个例子:更大的上下文窗口并不能保证有效的信息访问,因为注意力会在长输入中稀释(Gu, 2026),并且模型通常更偏好上下文开头或结尾的证据,而不是中间部分(Liu et al., 2024a)。多智能体系统显示出类似的模式:它们可以在广度优先的任务上优于单智能体,但会引入单智能体指标无法捕捉的协调失败(Anthropic, 2025d;Cemri et al., 2026);我们将在§5.2中回到这一点。现实的智能体基准如GAIA(Mialon et al., 2024)、τ-bench(Yao et al., 2024)和Terminal-Bench(Merrill et al., 2026)进一步表明,当评估从一次性提示转向与工具、环境和用户的多步骤交互时,前沿模型也会挣扎。特别是,τ-bench显示,在单次通过率下表现强劲的智能体,在pass^k(即在k次独立运行中成功的概率)下可能会崩溃。这暴露了端点准确率所掩盖的可靠性差距。

这些发现表明,我们需要重新思考智能体系统的几个部分。提示工程(White et al., 2023)对于局部控制仍然有用,但长期性能越来越依赖于可复用技能、持久记忆、有纪律的上下文构造和验证感知执行。关键问题不仅仅是上下文大小,而是上下文治理:每一步应该检索、压缩、排序、刷新、信任和保持活动的内容。记忆不仅仅是一个存储层;更难的问题是记忆的质量,包括存储什么、丢弃什么、如何在正确的时间检索正确的信息,以及如何避免过时、漂移、污染(Al-Tawaha et al., 2026)和过度泛化。多智能体系统并非自动协作;可靠的协作需要明确的通信协议和不确定性共享(Guo et al., 2026),我们将在§5.2中扩展这一点。最后,该领域仍然缺乏成熟的智能体演化框架,包括智能体应如何更新技能、精炼记忆、跨角色通信,以及在适应过程中保持可审计性。

本文做出三项主要贡献:

  • 系统扩展框架。我们开发了一个以系统为中心的智能体AI框架,其中进展依赖于扩展执行框架,而不仅仅是扩展模型。我们的主要主张是,智能体AI的下一个瓶颈不仅在于模型有多强大,还在于周围系统如何管理记忆、上下文、跨工具和子智能体的技能路由、编排、验证与治理,以及随时间适应。
  • 执行框架级框架。我们提出了一个框架,将基础模型推理与系统因素分离,包括记忆、上下文构造、技能路由、编排以及验证与治理。该框架将智能体执行框架视为设计和分析的一等对象。
  • 评估议程和参考执行框架。我们概述了智能体系统的评估议程,强调未来的基准应衡量过程级和纵向属性,如轨迹质量、记忆卫生、上下文效率、验证成本、安全演化以及在重复使用下的鲁棒性。为使讨论具体化,我们开发了CheetahClaws,一个Python原生参考执行框架,并针对Claude Code和OpenClaw进行了比较,将其执行框架级别的设计选择视为我们框架所识别的系统扩展变量的实例。

2 相关工作

智能体编码系统与执行框架工程。

现代编码智能体遵循一系列关于工具使用语言模型的工作,始于交错推理与行动策略如ReAct(Yao et al., 2022)、自教工具调用(Schick et al., 2023)和语言自我修正循环(Shinn et al., 2023)。生产系统如Claude Code(Anthropic, 2025a, c)和Codex风格的“执行框架工程”(Ryan Lopopolo, 2026)将这些原语打包成可编程的智能体运行时,包括工具、子智能体、钩子和持久项目记忆。一个并行的研究线专门针对软件工程,包括SWE-agent的智能体-计算机界面,该界面表明,精心设计的工具模式本身就能在使用固定骨干模型的情况下显著提高基准准确率(Yang et al., 2024)。然而,这些工作大多在单个模型变体的层面上报告结果;相对较少关注执行框架本身作为一个可控、可重现的研究对象,而这正是我们在本文中采用的视角。

上下文、记忆与检索。

检索增强生成(Lewis et al., 2020)表明,用外部非参数记忆增强参数化语言模型可以显著改善知识密集型生成和问答。后续工作将记忆作为系统组件进行研究,包括MemGPT的分层记忆管理(Packer et al., 2023)和Voyager用于开放式探索的增长型技能库(Wang et al., 2023)。同时,最近的分析表明,较长的上下文窗口伴随着自身的失败模式,如隐私漂移(Gu, 2026),并且智能体仍然需要校准后的不确定性来决定何时进行检索(Guo et al., 2026)。这些结果促使我们将上下文、记忆和检索视为一个上下文治理问题,而非独立的能力。

技能与多智能体协调。

可复用技能已成为一种将重复行为从提示中卸载到持久、可调用组件中的方法(Kazuhiro Sera, 2026;Emre Okcular, 2026;Wang et al., 2023),这扩展了早期关于思维链提示(Wei et al., 2022)和提示模式目录(White et al., 2023)的工作。与此同时,多智能体框架如AutoGen(Wu et al., 2024)、MetaGPT(Hong et al., 2024)和CAMEL(Li et al., 2023)形式化了智能体间的通信,而Anthropic报告了编排者加子智能体配置在广度优先的研究任务上带来的显著增益(Anthropic, 2025d)。互补的工作研究了群体多样性(Yang et al., 2026;Ye et al., 2025)和谈判式框架(Liu et al., 2026)如何塑造集体行为,以及这些智能体如何组成更广泛的“智能体网络”(Yang et al., 2025)。我们的框架将技能和委派共同视为技能杠杆,并强调在异构子智能体下的技能路由,而不是技能或子智能体的存在本身,是下一个开放的系统瓶颈。

基准、治理与智能体演化。

越来越多的研究工作通过可执行的、多步骤的基准来评估作为系统的智能体(Jimenez et al., 2024;Liu et al., 2024b;Zhou et al., 2024;Merrill et al., 2026),同时还有关于基于LLM的智能体的更广泛综述(Xi et al., 2025)和智能体安全威胁的目录(OWASP GenAI Security Project, 2025)。

相似文章

从模型扩展到系统扩展:在自主AI中扩展架构框架

Hugging Face Daily Papers

本文认为,推进自主AI需要扩展围绕基础模型的系统架构,重点关注可审计、模块化和可验证的组件。作者介绍了参考架构框架CheetahClaws,并概述了上下文管理、可信内存和动态技能路由方面的瓶颈。

观点:Agentic AI系统是实现AGI的可预见路径

arXiv cs.AI

本文认为,单一模型的单体型扩展不足以实现AGI,并提出具有多智能体协作的Agentic AI是必要的范式,理论上证明了代理系统在泛化和样本效率上具有指数级优势。

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2057153343081111582

X AI KOLs Timeline

UIUC、Meta和斯坦福大学联合发布的一份100页调查报告引入了人工智能代理的三个 harness 层(接口、机制、Scaling),认为大多数代理失败源于 harness 问题而非推理缺陷,并提供了一个用于审计代理堆栈的分类体系。

当底层业务流程存在问题,如何在生产工作流中扩展AI代理?

Reddit r/AI_Agents

一位实践者分享了在生产环境中扩展多智能体AI系统所面临的挑战,包括处理影子工作流(未记录的Slack线程和电子表格)、跨系统(ERP到CRM)的上下文丢失,以及跨部门所有权问题。他们向经历过这些现实问题的人寻求建议。

AI瓶颈已经转移,大多数人还没有跟上

Reddit r/singularity

AI瓶颈已经从能力转向信任和操作可靠性,因为工具现在将手动编排抽象为配置。作者观察到,构建代理比以往任何时候都更容易,但在生产环境中保持可靠性和信任仍然是更难的挑战。