@omarsar0: 关于自主AI作为通往AGI的可预见路径的有趣观点论文。(收藏)一直存在激烈争论……

X AI KOLs Following 论文

摘要

这篇观点论文认为,包含记忆、推理、工具使用、自我改进和对齐的自主AI系统,是比单纯扩展单一模型更可预见的AGI路径,并将这些组件形式化为具有不同瓶颈的可分离轴。

关于自主AI作为通往AGI的可预见路径的有趣观点论文(收藏)。关于是更大的单一模型还是多智能体系统能让我们达到AGI,一直存在激烈争论。作者认为,自主AI系统,而不是更大的基础模型本身,是通往AGI最可预见的途径。它形式化了“自主”在基础模型之外所贡献的内容:记忆、推理、工具使用、自我改进、对齐。每个都是具有自己瓶颈(长程一致性、信用分配、安全审计)的可分离轴。他们认为,这些瓶颈都不会通过预训练计算量再增加一个数量级而得到解决。论文:https://arxiv.org/abs/2605.12966 在我们的学院学习构建有效的AI代理:https://academy.dair.ai
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:58

立场:智能体 AI 系统是通往 AGI 的可预见路径

来源:https://arxiv.org/html/2605.12966

摘要

单一模型的规模扩展是通往 AGI 的唯一路径吗?本文挑战了“仅靠扩展单一模型就足以实现通用人工智能”这一教条。相反,我们认为智能体 AI 是掌握真实世界任务复杂、异构分布的必要范式。通过严格的理论推导,我们对比了单体学习器的优化约束与智能体系统的效率,从简单的路由机制演进到通用的有向无环图(DAG)拓扑结构。我们证明了智能体 AI 在泛化能力和样本效率上具有指数级优势。最后,我们讨论了与混合专家模型的关联,重新解释了当前多智能体框架的不稳定性,并呼吁对智能体 AI 给予更多研究关注。

机器学习,ICML

1 引言

没有免费午餐定理(Wolpert and Macready, 1997 (https://arxiv.org/html/2605.12966#bib.bib9))指出,没有通用的智能系统能在所有可想象的任务上表现完美。因此,考虑到现实世界问题的归纳性质,目标是在人类世界的语境中实现 AGI。但在此意义上,AGI 如何定义?历史上,机器智能经历了多种解释(Gudwin, 2000 (https://arxiv.org/html/2605.12966#bib.bib82); Horst, 2002 (https://arxiv.org/html/2605.12966#bib.bib83))。Legg 和 Hutter 在调查了各种观点后,将其定义为智能体“在广泛环境中实现目标”的能力,这与大多数定义一致(Legg and Hutter, 2007 (https://arxiv.org/html/2605.12966#bib.bib69))。此外,Chollet 认为“一个系统的智力是其在一系列任务上,相对于先验、经验和泛化难度的技能获取效率的度量”(Chollet, 2019 (https://arxiv.org/html/2605.12966#bib.bib68))。本质上,在我们物理存在的范围内,AGI 需要在近乎无限的人类相关任务谱系上实现最优性能。

Reed 等人(2022 (https://arxiv.org/html/2605.12966#bib.bib70))指出“……这样一个(在大量任务上具有通用能力的)智能体可以通过扩展数据、计算和模型参数,持续拓宽训练分布的同时保持性能来获得……”

尽管数据和计算规模不断扩展,但没有任何单一单体模型能在所有基准测试中占据普遍主导地位(Jimenez et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib56); Mialon et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib53); Patil et al., 2025 (https://arxiv.org/html/2605.12966#bib.bib72); Phan et al., 2025 (https://arxiv.org/html/2605.12966#bib.bib71)),并且尽管高分饱和,真正的 AGI 这一难以捉摸的品质仍然未能显现。虽然扩展推动了性能边界,但它以高昂的成本带来了递减的回报(Kaplan et al., 2020 (https://arxiv.org/html/2605.12966#bib.bib18); Hoffmann et al., 2022 (https://arxiv.org/html/2605.12966#bib.bib24); Pearce and Song, 2024 (https://arxiv.org/html/2605.12966#bib.bib26); Porian et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib25)),导致的是狭窄的熟练峰值,而非跨越真实世界任务全谱系的优越性。这种局限性源于特定优化目标和训练数据引入的强偏差(Battaglia et al., 2018 (https://arxiv.org/html/2605.12966#bib.bib79)),当使用合成数据时,这一问题会加剧(Dohmatob et al., 2024 (https://arxiv.org/html/2605.12966#bib.bib78))。

“Agentic AI”一词被正式提出,作为一种以多智能体协作、动态任务分解和协调自治为标志的范式(Sapkota et al., 2026 (https://arxiv.org/html/2605.12966#bib.bib67))。从孤立到协调,Agentic AI 超越了单体扩展,引入了更多编排多智能体系统的维度。实际上,像 Manus AI (Manus, 2024 (https://arxiv.org/html/2605.12966#bib.bib51)) 和编码助手如 Codex (OpenAI, 2024 (https://arxiv.org/html/2605.12966#bib.bib49))、Claude Code (Anthropic, 2024 (https://arxiv.org/html/2605.12966#bib.bib50)) 等平台已经初步展示了 Agentic AI 的力量。然而,大多数 AI 研究仍集中于单体模型,并且目前还没有具体的理论证明显示 Agentic AI 总体上优于单体方法。


参见图注。

图 1: Agentic AI 扩展了可用任务的范围,并相比单体模型提升了性能。虽然单体模型仅在其训练过的特定任务上表现出狭窄的性能峰值,但 Agentic AI 在更广泛的谱系上展示了多峰值性能。这扩展了可用能力,接近甚至超越了人类智能的高度和广度。


在本文中,我们提出了一系列论证和理论推导,以支持以下主张:Agentic AI 是通往 AGI 的可预见跨层次进展。这种能力源于它能够自适应地将任务分解为相关的原子任务,并编排具有不同偏差的特定智能体,从而与真实世界的结构对齐并推动帕累托最优。本文其余部分组织如下:在第 2 节 (https://arxiv.org/html/2605.12966#S2) 中,我们通过回顾学习理论的约束,为我们的证明奠定理论基础。在第 3 节 (https://arxiv.org/html/2605.12966#S3) 中,我们论证了单体模型无法实现多峰值性能,并推导了基于路由的 Agentic AI 的优势。然后在第 4 节 (https://arxiv.org/html/2605.12966#S4) 中,我们将分析扩展到一般性的 Agentic AI,即代理人(智能体)的有向无环图(DAG)表示。我们还在第 5 节 (https://arxiv.org/html/2605.12966#S5) 中列出了一些替代观点,并在传达论文主要思想后重新解释它们。最后,在第 7 节 (https://arxiv.org/html/2605.12966#S7) 中,我们总结并确定 Agentic AI 是通往 AGI 之路上单体扩展的必然继承者。

2 理论基础

2.1 结构化真实世界分布

没有免费午餐定理断言,在没有数据分布先验假设的情况下,没有学习算法在平均意义上优于其他算法。然而,真实世界任务并非均匀噪声;它们遵循特定的物理和语义约束。为了严格分析 Agentic AI 的优势,我们将数据生成过程形式化,不仅作为统计混合,而且作为支持在低维流形上的函数集合。

定义 2.1(结构化真实世界分布)。

设输入空间为 X ⊆ ℝᴰ,输出空间为 Y ⊆ ℝ。我们将结构化真实世界分布 D_real 定义为 X × Y 上的一个测度,由潜在任务变量 z ∈ {1, …, K} 生成,具有先验概率 α_k = P(z = k)。联合分布由三元组 (M, F, α) 定义,具有以下结构性质:

  1. 流形的并集:边际分布 P(x) 的支撑集是 K 个不同紧致黎曼流形 {M_k}_(k=1)^K 的并集,其中每个 M_k ⊂ ℝᴰ 具有内在维度 d_k << D:

    supp(P(x)) ⊆ ⋃_(k=1)^K M_k                                    (1)
    
  2. 局部函数一致性:对于每个任务 k,存在一个不同的标记函数 f_k: M_k → Y,使得条件分布 P(y|x, z=k) 集中在 f_k(x) 附近,带有噪声 ξ:

    y = f_k(Proj_(M_k)(x)) + ξ, 其中 x ∈ M_k                    (2)
    
  3. 任务分歧:最优函数是异质的,这意味着对于任意 j ≠ k,函数距离意味着不同的优化景观:

    inf_(θ∈Θ) E_(x~M_k)[ℓ(h_θ(x), f_k(x))] ≠ inf_(θ∈Θ) E_(x~M_j)[ℓ(h_θ(x), f_j(x))]    (3)
    

因此,结构化分布的密度由下式给出:

D_real(x, y) = Σ_(k=1)^K α_k · I_(M_k)(x) · P(y|f_k(x))                (4)

这个定义将前提从简单的概率混合提升为分段光滑流形学习问题。

2.2 泛化边界定理

维数灾难(Bellman et al., 1957 (https://arxiv.org/html/2605.12966#bib.bib23))随着维度 D 增加而造成了体积稀疏性。这由超球体体积与其外接超立方体体积的消失比说明:

lim_(D→∞) V_sphere(r, D) / V_cube(r, D) = 0

因此,高维数据集中在域的“角落”中。这增加了最近邻之间的平均距离,使得局部密度估计变得棘手。

由于上述体积稀疏性,为了充分覆盖域 Ω 以确保 ‖x - x’‖₂ 很小,所需的样本大小 N 随 D 指数增长。这个限制由极小化最大下界正式量化。

命题 2.2(紧致域上的极小化最大下界(Stone, 1982 (https://arxiv.org/html/2605.12966#bib.bib10)))。

设 F_L(Ω) 是限制在紧致子集 Ω ⊂ ℝᴰ 上的 L-Lipschitz 函数类。在标准非参数回归模型下,基于 N 个样本的任何估计量 f̂_N 的极小化最大风险满足:

inf_(f̂_N) sup_(f∈F_L) E[∫_Ω |f̂_N(x) - f(x)| dP(x)] ≥ C · N^{-1/(2+D)}        (5)

其中 P(x) 是输入在 Ω 上的边际分布,C > 0 是与 N 无关的常数。

项 N^{-1/(2+D)} 反映了维数灾难:为了保持固定的误差水平,N 必须随 D 呈指数级扩展,反映了体积的几何膨胀。

最近的理论进展为理解基于 Transformer 的架构的效率提供了坚实基础。虽然 Yun 等人(2020 (https://arxiv.org/html/2605.12966#bib.bib29))证明了 Transformer 是通用逼近器,能够实现精确的上下文映射,但 Jiang 和 Li(2024 (https://arxiv.org/html/2605.12966#bib.bib28))进一步推导了显式的 Jackson 型逼近率。他们证明了泛化误差本质上由目标函数时间耦合的谱衰减特性控制,表现为注意力机制的奇异值衰减率 α。

通过将这些谱特性与模型容量联系起来,我们可以将逼近误差 E 表示为参数数量 P 和任务内在维度 d 的函数。在标准架构假设下,参数随隐藏维度二次方扩展(P ∝ m_h²)(Hoffmann et al., 2022 (https://arxiv.org/html/2605.12966#bib.bib24)),并且谱理论观察表明衰减率 α 与维度成反比(α ∝ 1/d),逼近误差遵循依赖维度的幂律:

E(P) ≈ C · P^{-κ/d}                                          (6)

其中 C 是与任务相关的常数,κ 表示目标函数的正则性(光滑度)。

2.3 多类学习

由于 Agentic AI 可能涉及路由问题,具体来说,为特定输入选择合适的智能体,我们介绍一些多类学习理论。设 X 为实例空间,Y = {1, …, K} 为具有 K 个类别的标签空间。我们考虑一个假设类 H ⊆ {h: X → Y}。

Natarajan 维度(Natarajan, 1989 (https://arxiv.org/html/2605.12966#bib.bib21))是 VC 维度(Vapnik and Chervonenkis, 1971 (https://arxiv.org/html/2605.12966#bib.bib22))对于多类分类问题的推广(其中标签数量 K > 2)。

集合 S = {x₁, …, xₘ} ⊆ X 被 H Natarajan 打散,如果存在两个“见证”函数 f₀, f₁: S → Y 使得对所有 i 有 f₀(x_i) ≠ f₁(x_i),并且对于任何二进制向量 b ∈ {0, 1}ᵐ,存在 h ∈ H 使得:

h(x_i) = { f₀(x_i)  如果 b_i = 0
           f₁(x_i)  如果 b_i = 1

Natarajan 维度 d_N(H) 是这种被打散集合的最大大小。

Jin(2023 (https://arxiv.org/html/2605.12966#bib.bib11))给出了基于树和神经网络函数类的 Natarajan 维度 d_N(H) 的上界如下。

定理 2.3(基于树的分类器的 Natarajan 维度上界(Jin, 2023 (https://arxiv.org/html/2605.12966#bib.bib11)))。

考虑具有 d 个类别和输入在 ℝᵖ 中的多类分类问题。设 Π_(L,d)^(dtree) 是深度为 L 的决策树类。设 Π_(L,T,d)^(forest) 是由 T 棵这样的决策树构成的随机森林类。这些类的 Natarajan 维度上界为:

d_N(Π_(L,d)^(dtree)) = O(L 2^L log(p d))              (7)
d_N(Π_(L,T,d)^(forest)) = O(L T 2^L log(p d))         (8)
定理 2.4(神经网络分类器的 Natarajan 维度上界(Jin, 2023 (https://arxiv.org/html/2605.12966#bib.bib11)))。

设 Π_(p,S)^σ 表示前馈神经网络类……

相似文章

观点:Agentic AI系统是实现AGI的可预见路径

arXiv cs.AI

本文认为,单一模型的单体型扩展不足以实现AGI,并提出具有多智能体协作的Agentic AI是必要的范式,理论上证明了代理系统在泛化和样本效率上具有指数级优势。

为 AGI 及其未来做好准备

OpenAI Blog

OpenAI 阐述了为 AGI 做准备的战略,强调通过真实世界反馈循环进行渐进式部署,随着系统接近 AGI 能力而提高谨慎程度,以及开发更好的对齐技术以确保 AI 系统保持可控和安全。

从AGI到ASI

Hugging Face Daily Papers

本文探讨了从通用人工智能到超级人工智能的潜在路径,包括规模扩展、范式转变、递归改进及多智能体集体,并强调需通过跨学科全球协作应对变革性社会影响。