@omarsar0: 关于自主AI作为通往AGI的可预见路径的有趣观点论文。（收藏）一直存在激烈争论……

X AI KOLs Following 2026/05/14 19:00 论文

agentic-ai agi position-paper multi-agent scaling ai-research

摘要

这篇观点论文认为，包含记忆、推理、工具使用、自我改进和对齐的自主AI系统，是比单纯扩展单一模型更可预见的AGI路径，并将这些组件形式化为具有不同瓶颈的可分离轴。

关于自主AI作为通往AGI的可预见路径的有趣观点论文（收藏）。关于是更大的单一模型还是多智能体系统能让我们达到AGI，一直存在激烈争论。作者认为，自主AI系统，而不是更大的基础模型本身，是通往AGI最可预见的途径。它形式化了“自主”在基础模型之外所贡献的内容：记忆、推理、工具使用、自我改进、对齐。每个都是具有自己瓶颈（长程一致性、信用分配、安全审计）的可分离轴。他们认为，这些瓶颈都不会通过预训练计算量再增加一个数量级而得到解决。论文：https://arxiv.org/abs/2605.12966 在我们的学院学习构建有效的AI代理：https://academy.dair.ai

查看原文

查看缓存全文

缓存时间: 2026/05/15 04:58

立场：智能体 AI 系统是通往 AGI 的可预见路径

来源：https://arxiv.org/html/2605.12966

摘要

单一模型的规模扩展是通往 AGI 的唯一路径吗？本文挑战了“仅靠扩展单一模型就足以实现通用人工智能”这一教条。相反，我们认为智能体 AI 是掌握真实世界任务复杂、异构分布的必要范式。通过严格的理论推导，我们对比了单体学习器的优化约束与智能体系统的效率，从简单的路由机制演进到通用的有向无环图（DAG）拓扑结构。我们证明了智能体 AI 在泛化能力和样本效率上具有指数级优势。最后，我们讨论了与混合专家模型的关联，重新解释了当前多智能体框架的不稳定性，并呼吁对智能体 AI 给予更多研究关注。

机器学习，ICML

1 引言

没有免费午餐定理（Wolpert and Macready, 1997 (https://arxiv.org/html/2605.12966#bib.bib9)）指出，没有通用的智能系统能在所有可想象的任务上表现完美。因此，考虑到现实世界问题的归纳性质，目标是在人类世界的语境中实现 AGI。但在此意义上，AGI 如何定义？历史上，机器智能经历了多种解释（Gudwin, 2000 (https://arxiv.org/html/2605.12966#bib.bib82); Horst, 2002 (https://arxiv.org/html/2605.12966#bib.bib83)）。Legg 和 Hutter 在调查了各种观点后，将其定义为智能体“在广泛环境中实现目标”的能力，这与大多数定义一致（Legg and Hutter, 2007 (https://arxiv.org/html/2605.12966#bib.bib69)）。此外，Chollet 认为“一个系统的智力是其在一系列任务上，相对于先验、经验和泛化难度的技能获取效率的度量”（Chollet, 2019 (https://arxiv.org/html/2605.12966#bib.bib68)）。本质上，在我们物理存在的范围内，AGI 需要在近乎无限的人类相关任务谱系上实现最优性能。

Reed 等人（2022 (https://arxiv.org/html/2605.12966#bib.bib70)）指出“……这样一个（在大量任务上具有通用能力的）智能体可以通过扩展数据、计算和模型参数，持续拓宽训练分布的同时保持性能来获得……”

尽管数据和计算规模不断扩展，但没有任何单一单体模型能在所有基准测试中占据普遍主导地位（Jimenez et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib56); Mialon et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib53); Patil et al., 2025 (https://arxiv.org/html/2605.12966#bib.bib72); Phan et al., 2025 (https://arxiv.org/html/2605.12966#bib.bib71)），并且尽管高分饱和，真正的 AGI 这一难以捉摸的品质仍然未能显现。虽然扩展推动了性能边界，但它以高昂的成本带来了递减的回报（Kaplan et al., 2020 (https://arxiv.org/html/2605.12966#bib.bib18); Hoffmann et al., 2022 (https://arxiv.org/html/2605.12966#bib.bib24); Pearce and Song, 2024 (https://arxiv.org/html/2605.12966#bib.bib26); Porian et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib25)），导致的是狭窄的熟练峰值，而非跨越真实世界任务全谱系的优越性。这种局限性源于特定优化目标和训练数据引入的强偏差（Battaglia et al., 2018 (https://arxiv.org/html/2605.12966#bib.bib79)），当使用合成数据时，这一问题会加剧（Dohmatob et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib78)）。

“Agentic AI”一词被正式提出，作为一种以多智能体协作、动态任务分解和协调自治为标志的范式（Sapkota et al., 2026 (https://arxiv.org/html/2605.12966#bib.bib67)）。从孤立到协调，Agentic AI 超越了单体扩展，引入了更多编排多智能体系统的维度。实际上，像 Manus AI (Manus, 2024 (https://arxiv.org/html/2605.12966#bib.bib51)) 和编码助手如 Codex (OpenAI, 2024 (https://arxiv.org/html/2605.12966#bib.bib49))、Claude Code (Anthropic, 2024 (https://arxiv.org/html/2605.12966#bib.bib50)) 等平台已经初步展示了 Agentic AI 的力量。然而，大多数 AI 研究仍集中于单体模型，并且目前还没有具体的理论证明显示 Agentic AI 总体上优于单体方法。

参见图注。

图 1: Agentic AI 扩展了可用任务的范围，并相比单体模型提升了性能。虽然单体模型仅在其训练过的特定任务上表现出狭窄的性能峰值，但 Agentic AI 在更广泛的谱系上展示了多峰值性能。这扩展了可用能力，接近甚至超越了人类智能的高度和广度。

在本文中，我们提出了一系列论证和理论推导，以支持以下主张：Agentic AI 是通往 AGI 的可预见跨层次进展。这种能力源于它能够自适应地将任务分解为相关的原子任务，并编排具有不同偏差的特定智能体，从而与真实世界的结构对齐并推动帕累托最优。本文其余部分组织如下：在第 2 节 (https://arxiv.org/html/2605.12966#S2) 中，我们通过回顾学习理论的约束，为我们的证明奠定理论基础。在第 3 节 (https://arxiv.org/html/2605.12966#S3) 中，我们论证了单体模型无法实现多峰值性能，并推导了基于路由的 Agentic AI 的优势。然后在第 4 节 (https://arxiv.org/html/2605.12966#S4) 中，我们将分析扩展到一般性的 Agentic AI，即代理人（智能体）的有向无环图（DAG）表示。我们还在第 5 节 (https://arxiv.org/html/2605.12966#S5) 中列出了一些替代观点，并在传达论文主要思想后重新解释它们。最后，在第 7 节 (https://arxiv.org/html/2605.12966#S7) 中，我们总结并确定 Agentic AI 是通往 AGI 之路上单体扩展的必然继承者。

2 理论基础

2.1 结构化真实世界分布

没有免费午餐定理断言，在没有数据分布先验假设的情况下，没有学习算法在平均意义上优于其他算法。然而，真实世界任务并非均匀噪声；它们遵循特定的物理和语义约束。为了严格分析 Agentic AI 的优势，我们将数据生成过程形式化，不仅作为统计混合，而且作为支持在低维流形上的函数集合。

定义 2.1（结构化真实世界分布）。

设输入空间为 X ⊆ ℝᴰ，输出空间为 Y ⊆ ℝ。我们将结构化真实世界分布 D_real 定义为 X × Y 上的一个测度，由潜在任务变量 z ∈ {1, …, K} 生成，具有先验概率 α_k = P(z = k)。联合分布由三元组 (M, F, α) 定义，具有以下结构性质：

流形的并集：边际分布 P(x) 的支撑集是 K 个不同紧致黎曼流形 {M_k}_(k=1)^K 的并集，其中每个 M_k ⊂ ℝᴰ 具有内在维度 d_k << D：
```
supp(P(x)) ⊆ ⋃_(k=1)^K M_k                                    (1)
```
局部函数一致性：对于每个任务 k，存在一个不同的标记函数 f_k: M_k → Y，使得条件分布 P(y|x, z=k) 集中在 f_k(x) 附近，带有噪声 ξ：
```
y = f_k(Proj_(M_k)(x)) + ξ, 其中 x ∈ M_k                    (2)
```
任务分歧：最优函数是异质的，这意味着对于任意 j ≠ k，函数距离意味着不同的优化景观：
```
inf_(θ∈Θ) E_(x~M_k)[ℓ(h_θ(x), f_k(x))] ≠ inf_(θ∈Θ) E_(x~M_j)[ℓ(h_θ(x), f_j(x))]    (3)
```

因此，结构化分布的密度由下式给出：

D_real(x, y) = Σ_(k=1)^K α_k · I_(M_k)(x) · P(y|f_k(x))                (4)

这个定义将前提从简单的概率混合提升为分段光滑流形学习问题。

2.2 泛化边界定理

维数灾难（Bellman et al., 1957 (https://arxiv.org/html/2605.12966#bib.bib23)）随着维度 D 增加而造成了体积稀疏性。这由超球体体积与其外接超立方体体积的消失比说明：

lim_(D→∞) V_sphere(r, D) / V_cube(r, D) = 0

因此，高维数据集中在域的“角落”中。这增加了最近邻之间的平均距离，使得局部密度估计变得棘手。

由于上述体积稀疏性，为了充分覆盖域 Ω 以确保 ‖x - x’‖₂ 很小，所需的样本大小 N 随 D 指数增长。这个限制由极小化最大下界正式量化。

命题 2.2（紧致域上的极小化最大下界（Stone, 1982 (https://arxiv.org/html/2605.12966#bib.bib10)））。

设 F_L(Ω) 是限制在紧致子集 Ω ⊂ ℝᴰ 上的 L-Lipschitz 函数类。在标准非参数回归模型下，基于 N 个样本的任何估计量 f̂_N 的极小化最大风险满足：

inf_(f̂_N) sup_(f∈F_L) E[∫_Ω |f̂_N(x) - f(x)| dP(x)] ≥ C · N^{-1/(2+D)}        (5)

其中 P(x) 是输入在 Ω 上的边际分布，C > 0 是与 N 无关的常数。

项 N^{-1/(2+D)} 反映了维数灾难：为了保持固定的误差水平，N 必须随 D 呈指数级扩展，反映了体积的几何膨胀。

最近的理论进展为理解基于 Transformer 的架构的效率提供了坚实基础。虽然 Yun 等人（2020 (https://arxiv.org/html/2605.12966#bib.bib29)）证明了 Transformer 是通用逼近器，能够实现精确的上下文映射，但 Jiang 和 Li（2024 (https://arxiv.org/html/2605.12966#bib.bib28)）进一步推导了显式的 Jackson 型逼近率。他们证明了泛化误差本质上由目标函数时间耦合的谱衰减特性控制，表现为注意力机制的奇异值衰减率 α。

通过将这些谱特性与模型容量联系起来，我们可以将逼近误差 E 表示为参数数量 P 和任务内在维度 d 的函数。在标准架构假设下，参数随隐藏维度二次方扩展（P ∝ m_h²）（Hoffmann et al., 2022 (https://arxiv.org/html/2605.12966#bib.bib24)），并且谱理论观察表明衰减率 α 与维度成反比（α ∝ 1/d），逼近误差遵循依赖维度的幂律：

E(P) ≈ C · P^{-κ/d}                                          (6)

其中 C 是与任务相关的常数，κ 表示目标函数的正则性（光滑度）。

2.3 多类学习

由于 Agentic AI 可能涉及路由问题，具体来说，为特定输入选择合适的智能体，我们介绍一些多类学习理论。设 X 为实例空间，Y = {1, …, K} 为具有 K 个类别的标签空间。我们考虑一个假设类 H ⊆ {h: X → Y}。

Natarajan 维度（Natarajan, 1989 (https://arxiv.org/html/2605.12966#bib.bib21)）是 VC 维度（Vapnik and Chervonenkis, 1971 (https://arxiv.org/html/2605.12966#bib.bib22)）对于多类分类问题的推广（其中标签数量 K > 2）。

集合 S = {x₁, …, xₘ} ⊆ X 被 H Natarajan 打散，如果存在两个“见证”函数 f₀, f₁: S → Y 使得对所有 i 有 f₀(x_i) ≠ f₁(x_i)，并且对于任何二进制向量 b ∈ {0, 1}ᵐ，存在 h ∈ H 使得：

h(x_i) = { f₀(x_i)  如果 b_i = 0
           f₁(x_i)  如果 b_i = 1

Natarajan 维度 d_N(H) 是这种被打散集合的最大大小。

Jin（2023 (https://arxiv.org/html/2605.12966#bib.bib11)）给出了基于树和神经网络函数类的 Natarajan 维度 d_N(H) 的上界如下。

定理 2.3（基于树的分类器的 Natarajan 维度上界（Jin, 2023 (https://arxiv.org/html/2605.12966#bib.bib11)））。

考虑具有 d 个类别和输入在 ℝᵖ 中的多类分类问题。设 Π_(L,d)^(dtree) 是深度为 L 的决策树类。设 Π_(L,T,d)^(forest) 是由 T 棵这样的决策树构成的随机森林类。这些类的 Natarajan 维度上界为：

d_N(Π_(L,d)^(dtree)) = O(L 2^L log(p d))              (7)
d_N(Π_(L,T,d)^(forest)) = O(L T 2^L log(p d))         (8)

定理 2.4（神经网络分类器的 Natarajan 维度上界（Jin, 2023 (https://arxiv.org/html/2605.12966#bib.bib11)））。

设 Π_(p,S)^σ 表示前馈神经网络类……

@omarsar0: 关于自主AI作为通往AGI的可预见路径的有趣观点论文。（收藏）一直存在激烈争论……

立场：智能体 AI 系统是通往 AGI 的可预见路径

摘要

1 引言

2 理论基础

2.1 结构化真实世界分布

定义 2.1（结构化真实世界分布）。

2.2 泛化边界定理

命题 2.2（紧致域上的极小化最大下界（Stone, 1982 (https://arxiv.org/html/2605.12966#bib.bib10)））。

2.3 多类学习

定理 2.3（基于树的分类器的 Natarajan 维度上界（Jin, 2023 (https://arxiv.org/html/2605.12966#bib.bib11)））。

定理 2.4（神经网络分类器的 Natarajan 维度上界（Jin, 2023 (https://arxiv.org/html/2605.12966#bib.bib11)））。

相似文章

观点：Agentic AI系统是实现AGI的可预见路径

大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子

为 AGI 及其未来做好准备

从AGI到ASI

问答：今天的代理型人工智能是什么，我们希望它成为什么？

提交意见反馈