观点：Agentic AI系统是实现AGI的可预见路径

arXiv cs.AI 2026/05/14 04:00 论文

agentic-ai agi monolithic-scaling multi-agent generalization sample-efficiency icml

摘要

本文认为，单一模型的单体型扩展不足以实现AGI，并提出具有多智能体协作的Agentic AI是必要的范式，理论上证明了代理系统在泛化和样本效率上具有指数级优势。

arXiv:2605.12966v1 公告类型：新摘要：单体型扩展是通往AGI的唯一途径吗？本文挑战了“仅通过扩展单一模型就足以实现人工通用智能”这一教条。相反，我们确定Agentic AI是掌握现实世界任务复杂、异构分布的必要范式。通过严格的理论推导，我们对比了单体学习器的优化约束与Agent系统的效率，从简单的路由机制发展到通用的有向无环图（DAG）拓扑。我们证明Agentic AI在泛化和样本效率上具有指数级优势。最后，我们讨论了与混合专家（MoE）的联系，重新解读了当前多智能体框架的不稳定性，并呼吁加大对Agentic AI的研究关注。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/14 06:14

# 位置：智体AI系统是通往AGI的一条可预见路径
来源：https://arxiv.org/html/2605.12966
###### 摘要

单一模型规模扩展是通往AGI的唯一路径吗？本文挑战了单纯扩展单一模型便足以实现通用人工智能这一教条。相反，我们认为智体AI是掌握现实世界任务复杂异质分布的必要范式。通过严谨的理论推导，我们对比了单一学习器的优化约束与智体系统的效率，从简单的路由机制逐步推进到通用有向无环图（DAG）拓扑结构。我们证明智体AI在泛化能力和样本效率上具有指数级优势。最后，我们讨论其与混合专家模型的关联，重新解读当前多智体框架的不稳定性，并呼吁学界更多关注智体AI研究。

机器学习，ICML

## 1 引言

没有免费午餐定理（Wolpert and Macready, 1997 (https://arxiv.org/html/2605.12966#bib.bib9)）指出，不存在一个通用智能体能够在所有可能任务上都表现完美。因此，考虑到现实世界问题的归纳性质，目标是在人类世界背景下实现AGI。但在这个意义上，AGI如何定义？历史上，机器智能有过多种解读（Gudwin, 2000 (https://arxiv.org/html/2605.12966#bib.bib82); Horst, 2002 (https://arxiv.org/html/2605.12966#bib.bib83)）。Legg和Hutter在考察了各种观点后，将其定义为智能体“在广泛环境中实现目标”的能力，这与大多数定义相符（Legg and Hutter, 2007 (https://arxiv.org/html/2605.12966#bib.bib69)）。此外，Chollet认为“系统的智能是在给定先验、经验和泛化难度的情况下，在一系列任务上技能获取效率的度量”（Chollet, 2019 (https://arxiv.org/html/2605.12966#bib.bib68)）。本质上，在我们物理存在的范围内，AGI需要在近乎无限的人类相关任务光谱上实现最优性能。

Reed等人（2022 (https://arxiv.org/html/2605.12966#bib.bib70)）指出“……这样一个（在大量任务上具有通用能力的）智能体可以通过扩展数据、计算量和模型参数来获得，同时不断扩大训练分布并保持性能……”

尽管数据和计算量持续扩展，但没有任何单一模型能在所有基准测试中占据普遍优势（Jimenez et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib56); Mialon et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib53); Patil et al., 2025 (https://arxiv.org/html/2605.12966#bib.bib72); Phan et al., 2025 (https://arxiv.org/html/2605.12966#bib.bib71)），并且尽管高分已趋饱和，真正的AGI这一难以捉摸的特质却明显未能涌现。虽然扩展推动了性能边界，但它在代价高昂的情况下带来了递减的回报（Kaplan et al., 2020 (https://arxiv.org/html/2605.12966#bib.bib18); Hoffmann et al., 2022 (https://arxiv.org/html/2605.12966#bib.bib24); Pearce and Song, 2024 (https://arxiv.org/html/2605.12966#bib.bib26); Porian et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib25)），产生了狭窄的能力峰值，而非在整个现实任务光谱上的优势。这种局限性源于特定优化目标和训练数据引入的强偏差（Battaglia et al., 2018 (https://arxiv.org/html/2605.12966#bib.bib79)），当使用合成数据时问题会加剧（Dohmatob et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib78)）。

“智体AI”这一术语被正式提出，作为一种以多智体协作、动态任务分解和协调自治为特征的范式（Sapkota et al., 2026 (https://arxiv.org/html/2605.12966#bib.bib67)）。从孤立到协调，智体AI超越了单一模型扩展，引入了更多编排多智体系统的方面。实际上，像Manus AI（Manus, 2024 (https://arxiv.org/html/2605.12966#bib.bib51)）这样的平台以及Codex（OpenAI, 2024 (https://arxiv.org/html/2605.12966#bib.bib49)）、Claude Code（Anthropic, 2024 (https://arxiv.org/html/2605.12966#bib.bib50)）等编码助手已经初步展示了智体AI的力量。然而，大多数AI研究仍集中于单一模型，并且仍没有具体的理论证明表明智体AI在整体上优于单一模型方法。

参见图表说明图1：智体AI拓展了可用任务的范围，并相比单一模型提升了性能。单一模型仅在它们所训练的特定任务上表现出狭窄的性能峰值，而智体AI则在更广泛的光谱上展现出多峰值性能。这扩展了可用能力，接近甚至超越了人类智能的高度和广度。在本文中，我们通过一系列演示和理论推导来证实“智体AI是迈向AGI的可预见跨层级移动”这一主张。这种能力源于其能够自适应地将任务分解为相关的原子任务，并编排具有不同偏好的特定智体，从而与现实世界结构对齐并推动帕累托最优。本文其余部分组织如下：在第2节 (https://arxiv.org/html/2605.12966#S2)中，我们通过回顾学习理论中的约束来建立证明所需的理论基础。在第3节 (https://arxiv.org/html/2605.12966#S3)中，我们证明单一模型无法实现多峰值性能，并推导出基于路由的智体AI的优势。接着在第4节 (https://arxiv.org/html/2605.12966#S4)中，我们将这一分析扩展到表示为智体有向无环图（DAG）的通用智体AI。我们还在第5节 (https://arxiv.org/html/2605.12966#S5)中列出一些替代观点，并在传达本文主要思想后对其进行重新解读。最后，在第7节 (https://arxiv.org/html/2605.12966#S7)中，我们得出结论，将智体AI定位为单一模型扩展在通往AGI道路上的必然继承者。

## 2 理论基础

### 2.1 结构化现实世界分布

没有免费午餐定理断言，如果没有对数据分布的先验假设，没有学习算法在平均意义上优于其他任何算法。然而，现实世界任务并非均匀噪声；它们遵循特定的物理和语义约束。为了严格分析智体AI的优势，我们将数据生成过程形式化，不仅将其视为统计混合，而且作为支撑在低维流形上的函数集合。

###### 定义 2.1（结构化现实世界分布）。

设输入空间为 \( \mathcal{X} \subseteq \mathbb{R}^D \)，输出空间为 \( \mathcal{Y} \subseteq \mathbb{R} \)。我们将**结构化现实世界分布** \( \mathcal{D}_{\text{real}} \) 定义为 \( \mathcal{X} \times \mathcal{Y} \) 上的一个测度，由潜在任务变量 \( z \in \{1, \dots, K\} \) 生成，其先验概率为 \( \alpha_k = P(z=k) \)。联合分布由元组 \( (\mathcal{M}, \mathcal{F}, \boldsymbol{\alpha}) \) 定义，具有以下结构性质：

1. **流形的并集**：边缘分布 \( P(x) \) 的支撑集是 \( K \) 个不同紧致黎曼流形 \( \{\mathcal{M}_k\}_{k=1}^K \) 的并集，其中每个 \( \mathcal{M}_k \subset \mathbb{R}^D \) 具有内在维度 \( d_k \ll D \)：
   \[
   \text{supp}(P(x)) \subseteq \bigcup_{k=1}^K \mathcal{M}_k
   \]
   
2. **局部函数一致性**：对于每个任务 \( k \)，存在一个不同的标记函数 \( f_k : \mathcal{M}_k \to \mathcal{Y} \)，使得条件分布 \( P(y|x, z=k) \) 集中在 \( f_k(x) \) 附近，并带有噪声 \( \xi \)：
   \[
   y = f_k(\text{Proj}_{\mathcal{M}_k}(x)) + \xi, \quad \text{其中} x \in \mathcal{M}_k
   \]
   
3. **任务差异性**：最优函数是异质的，意味着对于任意 \( j \neq k \)，函数距离暗示了不同的优化景观：
   \[
   \inf_{\theta \in \Theta} \mathbb{E}_{x \sim \mathcal{M}_k}[\ell(h_\theta(x), f_k(x))] \neq \inf_{\theta \in \Theta} \mathbb{E}_{x \sim \mathcal{M}_j}[\ell(h_\theta(x), f_j(x))]
   \]

因此，结构化分布的密度为：
\[
\mathcal{D}_{\text{real}}(x,y) = \sum_{k=1}^K \alpha_k \cdot \mathbb{I}_{\mathcal{M}_k}(x) \cdot P(y|f_k(x))
\]

这个定义将前提从简单的概率混合提升为分片光滑的流形学习问题。

### 2.2 泛化界限定理

维度灾难（Bellman et al., 1957 (https://arxiv.org/html/2605.12966#bib.bib23)）随着维度 \( D \) 的增加造成体积稀疏性。这通过超球体体积与其外接超立方体体积之比的消失来说明：
\[
\lim_{D \to \infty} \frac{V_{\text{sphere}}(r,D)}{V_{\text{cube}}(r,D)} = 0
\]
因此，高维数据集中在域中的“角落”。这增加了最近邻之间的平均距离，使得局部密度估计变得难以处理。

由于上述的体积稀疏性，为了充分覆盖域 \( \Omega \) 以确保 \( \|x - x'\|_2 \) 较小，所需的样本量 \( N \) 随 \( D \) 呈指数增长。这种局限性由极小极大下界正式量化。

###### 命题 2.2（紧致域上的极小极大下界（Stone, 1982 (https://arxiv.org/html/2605.12966#bib.bib10)））。

设 \( \mathcal{F}_L(\Omega) \) 是限制在紧致子集 \( \Omega \subset \mathbb{R}^D \) 上的 L-Lipschitz 函数类。在标准非参数回归模型下，基于 \( N \) 个样本的任意估计量 \( \hat{f}_N \) 的极小极大风险满足：
\[
\inf_{\hat{f}_N} \sup_{f \in \mathcal{F}_L} \mathbb{E}\left[ \int_\Omega |\hat{f}_N(x) - f(x)| dP(x) \right] \geq C \cdot N^{-\frac{1}{2+D}}
\]
其中 \( P(x) \) 是支撑在 \( \Omega \) 上的输入边际分布，\( C>0 \) 是与 \( N \) 无关的常数。

项 \( N^{-\frac{1}{2+D}} \) 反映了维度灾难：为保持固定的误差水平，\( N \) 必须随 \( D \) 呈指数增长，这与体积的几何膨胀相对应。

近年来的理论进展为理解 Transformer 架构的效率提供了严谨基础。虽然 Yun 等人（2020 (https://arxiv.org/html/2605.12966#bib.bib29)）建立了 Transformer 是通用逼近器，能够实现精确的上下文映射，但 Jiang 和 Li（2024 (https://arxiv.org/html/2605.12966#bib.bib28)）进一步推导了显式的 Jackson 型逼近速率。他们证明泛化误差本质上由目标函数时间耦合的谱衰减特性决定，该特性由注意力机制的奇异值衰减率 \( \alpha \) 表示。

通过将这些谱特性与模型容量联系起来，我们可以将逼近误差 \( \mathcal{E} \) 表示为参数量 \( P \) 和任务内在维度 \( d \) 的函数。在标准架构假设下（参数与隐藏维度成二次关系，\( P \propto m_h^2 \)）（Hoffmann et al., 2022 (https://arxiv.org/html/2605.12966#bib.bib24)），以及谱理论观察（衰减率 \( \alpha \) 与维度成反比，\( \alpha \propto 1/d \)），逼近误差服从依赖于维度的幂律：
\[
\mathcal{E}(P) \approx C \cdot P^{-\frac{\kappa}{d}}
\]
其中 \( C \) 是与任务相关的常数，\( \kappa \) 表示目标函数的正则性（光滑度）。

### 2.3 多类学习

由于智体AI可能涉及路由问题，特别是为特定输入选择合适的智体，我们引入一些多类学习理论。设 \( \mathcal{X} \) 为实例空间，\( \mathcal{Y} = \{1, \dots, K\} \) 为具有 \( K \) 个类别的标签空间。我们考虑一个假设类 \( \mathcal{H} \subseteq \{h: \mathcal{X} \to \mathcal{Y}\} \)。

Natarajan 维度（Natarajan, 1989 (https://arxiv.org/html/2605.12966#bib.bib21)）是 VC 维度（Vapnik and Chervonenkis, 1971 (https://arxiv.org/html/2605.12966#bib.bib22)）对多类分类问题（标签数量 \( K>2 \)）的推广。

集合 \( S = \{x_1, \dots, x_m\} \subseteq \mathcal{X} \) 被 \( \mathcal{H} \) Natarajan 打散，如果存在两个“见证”函数 \( f_0, f_1: S \to \mathcal{Y} \) 使得对于所有 \( i \)，\( f_0(x_i) \neq f_1(x_i) \)，并且对于任意二进制向量 \( \mathbf{b} \in \{0,1\}^m \)，存在 \( h \in \mathcal{H} \) 使得：
\[
h(x_i) = \begin{cases} 
f_0(x_i) & \text{如果 } b_i = 0 \\
f_1(x_i) & \text{如果 } b_i = 1
\end{cases}
\]
Natarajan 维度 \( d_N(\mathcal{H}) \) 是这种打散集的最大尺寸。

Jin（2023 (https://arxiv.org/html/2605.12966#bib.bib11)）给出了基于树的函数类和神经网络函数类的 Natarajan 维度 \( d_N(\mathcal{H}) \) 的上界，如下所示。

###### 定理 2.3（基于树的分类器 Natarajan 维度上界（Jin, 2023 (https://arxiv.org/html/2605.12966#bib.bib11)））。

考虑具有 \( d \) 个类别且输入在 \( \mathbb{R}^p \) 中的多类分类问题。设 \( \Pi_{L,d}^{\text{dtree}} \) 为深度为 \( L \) 的决策树类。设 \( \Pi_{L,T,d}^{\text{forest}} \) 为由 \( T \) 棵这样决策树组成的随机森林类。这些类的 Natarajan 维度上界为：
\[
d_N(\Pi_{L,d}^{\text{dtree}}) = \mathcal{O}(L 2^L \log(pd)),
\]
\[
d_N(\Pi_{L,T,d}^{\text{forest}}) = \mathcal{O}(L T 2^L \log(pd)).
\]

###### 定理 2.4（神经网络分类器 Natarajan 维度上界（Jin, 2023 (https://arxiv.org/html/2605.12966#bib.bib11)））。

设 \( \Pi_{p,S}^\sigma \) 表示具有固定结构 \( S \) 和至多 \( p \) 个参数的前馈神经网络类，用于 \( d \) 类分类。如果激活函数限于二进制或线性集（记为 \( \Pi_{p,S}^{\text{binary}} \)），或者激活函数额外包含 ReLU（记为 \( \Pi_{p,S}^{\text{ReLU}} \)），则两种情况的 Natarajan 维度上界为：
\[
d_N(\Pi_{p,S}^{\text{binary}}) = d_N(\Pi_{p,S}^{\text{ReLU}}) = \mathcal{O}(d \cdot p^2).
\]

在建立了假设类的 Natarajan 维度之后，模型复杂度与泛化性能之间的关系可以如下描述。

###### 定理 2.5（多类

观点：Agentic AI系统是实现AGI的可预见路径

相似文章

大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子

为 AGI 及其未来做好准备

Agentic AI 网络中涌现通信的泛化界限

神经数据不再无聊：代理型AI在数据复用中的基准测试

构建高效的智能体

提交意见反馈