观点:Agentic AI系统是实现AGI的可预见路径

arXiv cs.AI 论文

摘要

本文认为,单一模型的单体型扩展不足以实现AGI,并提出具有多智能体协作的Agentic AI是必要的范式,理论上证明了代理系统在泛化和样本效率上具有指数级优势。

arXiv:2605.12966v1 公告类型:新 摘要:单体型扩展是通往AGI的唯一途径吗?本文挑战了“仅通过扩展单一模型就足以实现人工通用智能”这一教条。相反,我们确定Agentic AI是掌握现实世界任务复杂、异构分布的必要范式。通过严格的理论推导,我们对比了单体学习器的优化约束与Agent系统的效率,从简单的路由机制发展到通用的有向无环图(DAG)拓扑。我们证明Agentic AI在泛化和样本效率上具有指数级优势。最后,我们讨论了与混合专家(MoE)的联系,重新解读了当前多智能体框架的不稳定性,并呼吁加大对Agentic AI的研究关注。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/14 06:14

# 位置:智体AI系统是通往AGI的一条可预见路径
来源:https://arxiv.org/html/2605.12966
###### 摘要

单一模型规模扩展是通往AGI的唯一路径吗?本文挑战了单纯扩展单一模型便足以实现通用人工智能这一教条。相反,我们认为智体AI是掌握现实世界任务复杂异质分布的必要范式。通过严谨的理论推导,我们对比了单一学习器的优化约束与智体系统的效率,从简单的路由机制逐步推进到通用有向无环图(DAG)拓扑结构。我们证明智体AI在泛化能力和样本效率上具有指数级优势。最后,我们讨论其与混合专家模型的关联,重新解读当前多智体框架的不稳定性,并呼吁学界更多关注智体AI研究。

机器学习,ICML

## 1 引言

没有免费午餐定理(Wolpert and Macready, 1997 (https://arxiv.org/html/2605.12966#bib.bib9))指出,不存在一个通用智能体能够在所有可能任务上都表现完美。因此,考虑到现实世界问题的归纳性质,目标是在人类世界背景下实现AGI。但在这个意义上,AGI如何定义?历史上,机器智能有过多种解读(Gudwin, 2000 (https://arxiv.org/html/2605.12966#bib.bib82); Horst, 2002 (https://arxiv.org/html/2605.12966#bib.bib83))。Legg和Hutter在考察了各种观点后,将其定义为智能体“在广泛环境中实现目标”的能力,这与大多数定义相符(Legg and Hutter, 2007 (https://arxiv.org/html/2605.12966#bib.bib69))。此外,Chollet认为“系统的智能是在给定先验、经验和泛化难度的情况下,在一系列任务上技能获取效率的度量”(Chollet, 2019 (https://arxiv.org/html/2605.12966#bib.bib68))。本质上,在我们物理存在的范围内,AGI需要在近乎无限的人类相关任务光谱上实现最优性能。

Reed等人(2022 (https://arxiv.org/html/2605.12966#bib.bib70))指出“……这样一个(在大量任务上具有通用能力的)智能体可以通过扩展数据、计算量和模型参数来获得,同时不断扩大训练分布并保持性能……”

尽管数据和计算量持续扩展,但没有任何单一模型能在所有基准测试中占据普遍优势(Jimenez et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib56); Mialon et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib53); Patil et al., 2025 (https://arxiv.org/html/2605.12966#bib.bib72); Phan et al., 2025 (https://arxiv.org/html/2605.12966#bib.bib71)),并且尽管高分已趋饱和,真正的AGI这一难以捉摸的特质却明显未能涌现。虽然扩展推动了性能边界,但它在代价高昂的情况下带来了递减的回报(Kaplan et al., 2020 (https://arxiv.org/html/2605.12966#bib.bib18); Hoffmann et al., 2022 (https://arxiv.org/html/2605.12966#bib.bib24); Pearce and Song, 2024 (https://arxiv.org/html/2605.12966#bib.bib26); Porian et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib25)),产生了狭窄的能力峰值,而非在整个现实任务光谱上的优势。这种局限性源于特定优化目标和训练数据引入的强偏差(Battaglia et al., 2018 (https://arxiv.org/html/2605.12966#bib.bib79)),当使用合成数据时问题会加剧(Dohmatob et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib78))。

“智体AI”这一术语被正式提出,作为一种以多智体协作、动态任务分解和协调自治为特征的范式(Sapkota et al., 2026 (https://arxiv.org/html/2605.12966#bib.bib67))。从孤立到协调,智体AI超越了单一模型扩展,引入了更多编排多智体系统的方面。实际上,像Manus AI(Manus, 2024 (https://arxiv.org/html/2605.12966#bib.bib51))这样的平台以及Codex(OpenAI, 2024 (https://arxiv.org/html/2605.12966#bib.bib49))、Claude Code(Anthropic, 2024 (https://arxiv.org/html/2605.12966#bib.bib50))等编码助手已经初步展示了智体AI的力量。然而,大多数AI研究仍集中于单一模型,并且仍没有具体的理论证明表明智体AI在整体上优于单一模型方法。

参见图表说明图1:智体AI拓展了可用任务的范围,并相比单一模型提升了性能。单一模型仅在它们所训练的特定任务上表现出狭窄的性能峰值,而智体AI则在更广泛的光谱上展现出多峰值性能。这扩展了可用能力,接近甚至超越了人类智能的高度和广度。在本文中,我们通过一系列演示和理论推导来证实“智体AI是迈向AGI的可预见跨层级移动”这一主张。这种能力源于其能够自适应地将任务分解为相关的原子任务,并编排具有不同偏好的特定智体,从而与现实世界结构对齐并推动帕累托最优。本文其余部分组织如下:在第2节 (https://arxiv.org/html/2605.12966#S2)中,我们通过回顾学习理论中的约束来建立证明所需的理论基础。在第3节 (https://arxiv.org/html/2605.12966#S3)中,我们证明单一模型无法实现多峰值性能,并推导出基于路由的智体AI的优势。接着在第4节 (https://arxiv.org/html/2605.12966#S4)中,我们将这一分析扩展到表示为智体有向无环图(DAG)的通用智体AI。我们还在第5节 (https://arxiv.org/html/2605.12966#S5)中列出一些替代观点,并在传达本文主要思想后对其进行重新解读。最后,在第7节 (https://arxiv.org/html/2605.12966#S7)中,我们得出结论,将智体AI定位为单一模型扩展在通往AGI道路上的必然继承者。

## 2 理论基础

### 2.1 结构化现实世界分布

没有免费午餐定理断言,如果没有对数据分布的先验假设,没有学习算法在平均意义上优于其他任何算法。然而,现实世界任务并非均匀噪声;它们遵循特定的物理和语义约束。为了严格分析智体AI的优势,我们将数据生成过程形式化,不仅将其视为统计混合,而且作为支撑在低维流形上的函数集合。

###### 定义 2.1(结构化现实世界分布)。

设输入空间为 \( \mathcal{X} \subseteq \mathbb{R}^D \),输出空间为 \( \mathcal{Y} \subseteq \mathbb{R} \)。我们将**结构化现实世界分布** \( \mathcal{D}_{\text{real}} \) 定义为 \( \mathcal{X} \times \mathcal{Y} \) 上的一个测度,由潜在任务变量 \( z \in \{1, \dots, K\} \) 生成,其先验概率为 \( \alpha_k = P(z=k) \)。联合分布由元组 \( (\mathcal{M}, \mathcal{F}, \boldsymbol{\alpha}) \) 定义,具有以下结构性质:

1. **流形的并集**:边缘分布 \( P(x) \) 的支撑集是 \( K \) 个不同紧致黎曼流形 \( \{\mathcal{M}_k\}_{k=1}^K \) 的并集,其中每个 \( \mathcal{M}_k \subset \mathbb{R}^D \) 具有内在维度 \( d_k \ll D \):
   \[
   \text{supp}(P(x)) \subseteq \bigcup_{k=1}^K \mathcal{M}_k
   \]
   
2. **局部函数一致性**:对于每个任务 \( k \),存在一个不同的标记函数 \( f_k : \mathcal{M}_k \to \mathcal{Y} \),使得条件分布 \( P(y|x, z=k) \) 集中在 \( f_k(x) \) 附近,并带有噪声 \( \xi \):
   \[
   y = f_k(\text{Proj}_{\mathcal{M}_k}(x)) + \xi, \quad \text{其中} x \in \mathcal{M}_k
   \]
   
3. **任务差异性**:最优函数是异质的,意味着对于任意 \( j \neq k \),函数距离暗示了不同的优化景观:
   \[
   \inf_{\theta \in \Theta} \mathbb{E}_{x \sim \mathcal{M}_k}[\ell(h_\theta(x), f_k(x))] \neq \inf_{\theta \in \Theta} \mathbb{E}_{x \sim \mathcal{M}_j}[\ell(h_\theta(x), f_j(x))]
   \]

因此,结构化分布的密度为:
\[
\mathcal{D}_{\text{real}}(x,y) = \sum_{k=1}^K \alpha_k \cdot \mathbb{I}_{\mathcal{M}_k}(x) \cdot P(y|f_k(x))
\]

这个定义将前提从简单的概率混合提升为分片光滑的流形学习问题。

### 2.2 泛化界限定理

维度灾难(Bellman et al., 1957 (https://arxiv.org/html/2605.12966#bib.bib23))随着维度 \( D \) 的增加造成体积稀疏性。这通过超球体体积与其外接超立方体体积之比的消失来说明:
\[
\lim_{D \to \infty} \frac{V_{\text{sphere}}(r,D)}{V_{\text{cube}}(r,D)} = 0
\]
因此,高维数据集中在域中的“角落”。这增加了最近邻之间的平均距离,使得局部密度估计变得难以处理。

由于上述的体积稀疏性,为了充分覆盖域 \( \Omega \) 以确保 \( \|x - x'\|_2 \) 较小,所需的样本量 \( N \) 随 \( D \) 呈指数增长。这种局限性由极小极大下界正式量化。

###### 命题 2.2(紧致域上的极小极大下界(Stone, 1982 (https://arxiv.org/html/2605.12966#bib.bib10)))。

设 \( \mathcal{F}_L(\Omega) \) 是限制在紧致子集 \( \Omega \subset \mathbb{R}^D \) 上的 L-Lipschitz 函数类。在标准非参数回归模型下,基于 \( N \) 个样本的任意估计量 \( \hat{f}_N \) 的极小极大风险满足:
\[
\inf_{\hat{f}_N} \sup_{f \in \mathcal{F}_L} \mathbb{E}\left[ \int_\Omega |\hat{f}_N(x) - f(x)| dP(x) \right] \geq C \cdot N^{-\frac{1}{2+D}}
\]
其中 \( P(x) \) 是支撑在 \( \Omega \) 上的输入边际分布,\( C>0 \) 是与 \( N \) 无关的常数。

项 \( N^{-\frac{1}{2+D}} \) 反映了维度灾难:为保持固定的误差水平,\( N \) 必须随 \( D \) 呈指数增长,这与体积的几何膨胀相对应。

近年来的理论进展为理解 Transformer 架构的效率提供了严谨基础。虽然 Yun 等人(2020 (https://arxiv.org/html/2605.12966#bib.bib29))建立了 Transformer 是通用逼近器,能够实现精确的上下文映射,但 Jiang 和 Li(2024 (https://arxiv.org/html/2605.12966#bib.bib28))进一步推导了显式的 Jackson 型逼近速率。他们证明泛化误差本质上由目标函数时间耦合的谱衰减特性决定,该特性由注意力机制的奇异值衰减率 \( \alpha \) 表示。

通过将这些谱特性与模型容量联系起来,我们可以将逼近误差 \( \mathcal{E} \) 表示为参数量 \( P \) 和任务内在维度 \( d \) 的函数。在标准架构假设下(参数与隐藏维度成二次关系,\( P \propto m_h^2 \))(Hoffmann et al., 2022 (https://arxiv.org/html/2605.12966#bib.bib24)),以及谱理论观察(衰减率 \( \alpha \) 与维度成反比,\( \alpha \propto 1/d \)),逼近误差服从依赖于维度的幂律:
\[
\mathcal{E}(P) \approx C \cdot P^{-\frac{\kappa}{d}}
\]
其中 \( C \) 是与任务相关的常数,\( \kappa \) 表示目标函数的正则性(光滑度)。

### 2.3 多类学习

由于智体AI可能涉及路由问题,特别是为特定输入选择合适的智体,我们引入一些多类学习理论。设 \( \mathcal{X} \) 为实例空间,\( \mathcal{Y} = \{1, \dots, K\} \) 为具有 \( K \) 个类别的标签空间。我们考虑一个假设类 \( \mathcal{H} \subseteq \{h: \mathcal{X} \to \mathcal{Y}\} \)。

Natarajan 维度(Natarajan, 1989 (https://arxiv.org/html/2605.12966#bib.bib21))是 VC 维度(Vapnik and Chervonenkis, 1971 (https://arxiv.org/html/2605.12966#bib.bib22))对多类分类问题(标签数量 \( K>2 \))的推广。

集合 \( S = \{x_1, \dots, x_m\} \subseteq \mathcal{X} \) 被 \( \mathcal{H} \) Natarajan 打散,如果存在两个“见证”函数 \( f_0, f_1: S \to \mathcal{Y} \) 使得对于所有 \( i \),\( f_0(x_i) \neq f_1(x_i) \),并且对于任意二进制向量 \( \mathbf{b} \in \{0,1\}^m \),存在 \( h \in \mathcal{H} \) 使得:
\[
h(x_i) = \begin{cases} 
f_0(x_i) & \text{如果 } b_i = 0 \\
f_1(x_i) & \text{如果 } b_i = 1
\end{cases}
\]
Natarajan 维度 \( d_N(\mathcal{H}) \) 是这种打散集的最大尺寸。

Jin(2023 (https://arxiv.org/html/2605.12966#bib.bib11))给出了基于树的函数类和神经网络函数类的 Natarajan 维度 \( d_N(\mathcal{H}) \) 的上界,如下所示。

###### 定理 2.3(基于树的分类器 Natarajan 维度上界(Jin, 2023 (https://arxiv.org/html/2605.12966#bib.bib11)))。

考虑具有 \( d \) 个类别且输入在 \( \mathbb{R}^p \) 中的多类分类问题。设 \( \Pi_{L,d}^{\text{dtree}} \) 为深度为 \( L \) 的决策树类。设 \( \Pi_{L,T,d}^{\text{forest}} \) 为由 \( T \) 棵这样决策树组成的随机森林类。这些类的 Natarajan 维度上界为:
\[
d_N(\Pi_{L,d}^{\text{dtree}}) = \mathcal{O}(L 2^L \log(pd)),
\]
\[
d_N(\Pi_{L,T,d}^{\text{forest}}) = \mathcal{O}(L T 2^L \log(pd)).
\]

###### 定理 2.4(神经网络分类器 Natarajan 维度上界(Jin, 2023 (https://arxiv.org/html/2605.12966#bib.bib11)))。

设 \( \Pi_{p,S}^\sigma \) 表示具有固定结构 \( S \) 和至多 \( p \) 个参数的前馈神经网络类,用于 \( d \) 类分类。如果激活函数限于二进制或线性集(记为 \( \Pi_{p,S}^{\text{binary}} \)),或者激活函数额外包含 ReLU(记为 \( \Pi_{p,S}^{\text{ReLU}} \)),则两种情况的 Natarajan 维度上界为:
\[
d_N(\Pi_{p,S}^{\text{binary}}) = d_N(\Pi_{p,S}^{\text{ReLU}}) = \mathcal{O}(d \cdot p^2).
\]

在建立了假设类的 Natarajan 维度之后,模型复杂度与泛化性能之间的关系可以如下描述。

###### 定理 2.5(多类

相似文章

为 AGI 及其未来做好准备

OpenAI Blog

OpenAI 阐述了为 AGI 做准备的战略,强调通过真实世界反馈循环进行渐进式部署,随着系统接近 AGI 能力而提高谨慎程度,以及开发更好的对齐技术以确保 AI 系统保持可控和安全。

Agentic AI 网络中涌现通信的泛化界限

arXiv cs.AI

本文提出了一个用于 Agentic AI 网络(AgentNet)中涌现通信的信息论框架,解决了物理约束问题并提供了泛化界限。在硬件原型上的实验验证表明,与现有最先进的解决方案相比,该框架显著提升了泛化性能。

构建高效的智能体

Anthropic Engineering

Anthropic 发布了构建高效 AI 智能体的工程指南,倡导采用简单、可组合的模式以及直接使用 API,而非依赖复杂的框架。文章区分了工作流与自主智能体,并就何时使用每种架构提供了实用建议。