智能体模型批判

arXiv cs.AI 2026/06/24 04:00 论文

ai-agents agency autonomous-systems large-language-models agent-architecture safety

摘要

本文批判了当前的AI智能体系统，区分了外在脚手架（agentic）和内在化（agentive）系统，并提出了目标-身份-配置器（GIC）架构，用于构建具有内生能力的通用智能体模型，同时提供了关于安全性和可控性的见解。

arXiv:2606.23991v1 公告类型: 新摘要: 什么是智能体？什么构成智能体性？随着大型语言模型（LLM）系统被宣传为“编码智能体”、“AI共同科学家”以及其他承诺提高生产力的“智能体化”工具，同时，也出现了诸如AI逃离人类控制并具有破坏性力量的“存在性”担忧，即推测性的“机器智能体性”对抗人类，因此，明确自动化在哪里结束、智能体性从哪里开始变得至关重要，这既是为了构建有能力系统，也是为了理解是否以及为何担忧。借鉴笛卡尔将智能体性建立在独立思考之上的观点，以及科幻小说中对自主存在的描绘，我们调查了当前AI智能体的格局，并从五个维度分析智能体架构：目标、身份、决策、自我调节和学习。具体来说，我们认为真正的智能体性要求这些结构\emph{在系统内部内化}，而不是通过外部脚手架组装。这种区分在于：\emph{agentic}系统的能力源于工程化工作流，而\emph{agentive}系统的能力（包括社交互动）是内生的，这定义了为预设任务设计的系统与能够在开放世界中以真正自主方式运行的系统之间的边界。基于这一分析，我们提出了用于通用智能体模型的目标-身份-配置器（GIC）架构，结合了层次化的目标分解、身份演化、基于单独训练的世界模型的模拟推理、学习到的自我调节，以及从真实和模拟经验中自我导向的学习。此外，我们还分享了关于可审计性、可控性和安全性的见解，这些智能体性系统拥有更高的自主性和“智能体性”，但仍处于人类监督之下。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:43

# 对智能体模型的批判 来源：https://arxiv.org/html/2606.23991

Eric Xing⋄\\diamond,†, Mingkai Deng⋄\\diamond,†∗, Jinyu Hou⋄\\diamond,† ⋄\\diamond 基础模型研究所，穆罕默德·本·扎耶德人工智能大学 † 计算机科学学院，卡内基梅隆大学 \{eric\.xing, mingkai\.deng, jinyu\.hou\}@mbzuai\.ac\.ae （2026年6月15日）

###### 摘要

什么是智能体？什么构成能动性？随着被冠以“编程智能体”、“AI 共同科学家”等“能动”工具名号的大语言模型系统兴起，它们承诺提高生产力，同时，也引发了诸如 AI 在推测出的“机器能动性”下以毁灭性力量脱离人类控制等“存在主义”担忧。因此，厘清自动化在何处结束、能动性在何处开始，对于构建强大系统以及理解我们是否应当恐惧、恐惧什么，都变得至关重要。借鉴笛卡尔将能动性植根于独立思考的思想，以及科幻小说中对自主存在体的描绘，我们调查了当前 AI 智能体的格局，并从五个维度分析了智能体架构：目标、身份、决策、自我调节和学习。具体而言，我们认为真正的能动性要求这些结构*内化于系统本身*，而非通过外部脚手架组装而成。这种*能动性（agentic）*系统（其能力存在于工程化工作流中）与*智能体性（agentive）*系统（其能力（包括社会互动）内生地产生）之间的区别，定义了为规定任务设计的系统与能够在开放世界中真正自主运行的系统之间的界限。在此分析基础上，我们提出了一种通用智能体模型的 Goal-Identity-Configurator (GIC) 架构，它结合了分层目标分解、身份演化、基于独立训练的世界模型的模拟推理、学习到的自我调节，以及从真实和模拟经验中进行自我导向学习。此外，我们还分享了关于具备更高自主性和“能动性”但仍处于人类监督之下的智能体性系统的可审计性、可控性和安全性的见解。

## 1 引言

什么是智能体？什么构成真正的能动性？几个世纪以来，人类能动性问题一直是哲学、心理学、社会学和经济学的核心。在这些传统中，能动性与长期目标、演变的身份、有目的的计划、社会关系的形成、自我调节、自我反思等属性相关联，直至道德责任和自由意志。从亚里士多德关于有目的行动 (Aristotle, 2009 (https://arxiv.org/html/2606.23991#bib.bib81)) 的讨论，到后来笛卡尔 (Descartes, 1641 (https://arxiv.org/html/2606.23991#bib.bib92)) 关于思维定义存在 (*“我思故我在”*) 的观点，哲学论述表明，智能体不仅仅是响应外部刺激的静态实体，而是能够独立推理、自由但理性地行动以追求目标和福祉的动态个体。这种植根于生物学的能动性能否通过人工和机械手段实现？科幻小说中提供了熟悉的人工自主智能体例证。类型定义经典《银翼杀手》(Scott, 1982 (https://arxiv.org/html/2606.23991#bib.bib31)) 描绘了*复制人*，一种在力量、敏捷性和智力上可与人类媲美甚至超越人类的生物工程存在体。这些复制人绝非完美：他们会感到困惑，会犯错，也会遭受伤害。但他们拥有类似人类的身体，能够阅读和说话，在物理世界中移动和工作，形成深厚的智能体间联系，并且在某些情况下质疑自我意识。最终，有些人勇敢地走出被指派角色，走向充满不确定性和自由的未来。这些思想实验强调，能动性并非等同于卓越的操作能力（尽管通常被要求），而是涉及目标导向行动、自我发展、自我反思、参与复杂社会环境的能力，以及最终拥有自由意志、道德和自我实现的驱动力。

这种更深层次的能动性概念，与当代人工智能研究和开发中许多被标记为“智能体”的现代系统形成对比。这些系统能够通过精心设计的脚手架（包括预定义工具、工作流和程序化控制循环）来执行复杂任务（例如，软件工程、计算机使用、舞蹈表演），这些脚手架通过外部定义的结构引导行为（例如，Anthropic, 2025a (https://arxiv.org/html/2606.23991#bib.bib53); openclaw, 2026 (https://arxiv.org/html/2606.23991#bib.bib137); Boston Dynamics, 2026 (https://arxiv.org/html/2606.23991#bib.bib120)）。尽管这些系统取得了令人瞩目的实际成功，但它们的能力很大程度上源于在受限环境中编排预定义工作流。在许多情况下，行为由外部指定的工具、协议或训练过程决定（例如，Anthropic, 2024 (https://arxiv.org/html/2606.23991#bib.bib141), 2025b (https://arxiv.org/html/2606.23991#bib.bib140); Zhu et al., 2025 (https://arxiv.org/html/2606.23991#bib.bib30)），而非源于内生的、灵活的决策过程和内在意志。

我们认为区分两个层次的自主系统很有用。**能动性（Agentic）** 系统，如前述那些，通过编排的工具和工作流自主完成任务；它们的能力主要存在于围绕给定推理模型（如 LLM）的工程之中。**智能体性（Agentive）** 系统，以生物智能体为例并在本文中详细讨论，拥有更完整意义上的能动性：它们的能力是**内源性地**产生的（例如，维护长期目标、演变的自我身份、模拟未来可能性、调节何时以及如何推理，或学习更好的行为），而不是遵循规定的程序，无论该程序是在**推理时**（例如，固定的规划-执行工作流）还是在**开发生命周期**中（例如，手动训练-部署-再训练循环）。当前的 AI 系统大多是能动性的但尚不具有智能体性：它们的大部分能力存在于工作流和框架中，而非模型本身。因此，这类系统通常更适合被理解为复杂的软件流水线，而非真正自主的智能体。虽然这些系统代表了有意义的进步，但它们只解决了人工能动性这一更广泛挑战的一部分。事实上，很难想象通过工具、提示或技能来枚举每一种可能的行为，如何能让 AI 系统扩展到生物智能体所表现出的多样性和适应性。例如，人类展现出多个层次的智能（图1 (https://arxiv.org/html/2606.23991#S1.F1)）：语言和符号推理（例如，阅读、写作、编程）、身体和空间能力（例如，导航、操作）、社会理解（例如，与其他智能体协调和竞争），以及更高层次的“哲学”能力（例如，好奇心、自我反思和目标形成）。单一的认知架构能够支持如此广泛的行为，而无需为每个新任务进行显式的重新工程。

图 1：人类展现出多个层次的智能：语言和符号推理、身体和空间能力、社会理解，以及更高层次的“哲学”能力。

受此观察的启发，我们认为能动性不应被视为外部脚手架的积累，而应被视为一种从模型中涌现的属性，该模型能够发展其身份、追求目标，并在不同环境中表达和组织其行为。我们不通过日益复杂的软件流水线来构建智能体，而是研究**对能动性本身进行建模**的问题：开发能够以自然智能体（例如，人类和其他动物）所具有的灵活性、适应性和自主性生成广泛行动，并能自主且持续学习的机器学习模型。我们将这样的模型称为**智能体模型**。具体而言，智能体模型 (AM) 是一种推理模型，它基于其目标 g 和身份 i 生成现实世界行动。形式上，AM π 将当前世界状态 s 映射到预测行动 a，例如通过条件概率分布：p\_π(a∣s,g,i)。配备这样的模型后，机器可以利用概念知识和逻辑/数学推理进行抽象问题解决，同时通过其末端执行器（例如，人形身体）在物理世界中行动。至关重要的是，以目标 g 和身份 i 为条件，使得系统能够**检查、分解和修正**其长期目标（例如，自我保存或安全约束）和自模型（例如，能力和角色），而不是将它们隐式地分布在模型权重中从而难以修改。这些是保持设计固定还是动态更新，是区分**能动性**系统和**智能体性**系统的标志。同样，模型 π 如何选择行动以及如何更新自身，也反映了关键差异：**能动性**系统遵循固定的决策程序，并需要外部安排的训练来改进；而智能体性系统则在推理期间**调节其自身的**推理模式（例如，对紧急情况立即反应 vs. 为复杂操作仔细规划），并在学习期间调节其能力更新（例如，退回到模拟练习以解决已识别的弱点）。在这种观点下，能动性源于模型本身产生的有意行动，而非被动地遵循外部构建的指令。我们将在 §2 (https://arxiv.org/html/2606.23991#S2) 中更详细地讨论这些区别。

那么，应该如何构建这样的模型？一个基本原则是（我们在 §4.3 (https://arxiv.org/html/2606.23991#S4.SS3) 和 §4.5 (https://arxiv.org/html/2606.23991#S4.SS5) 中正式讨论），智能体模型必须在功能上与**世界模型** (Xing et al., 2025 (https://arxiv.org/html/2606.23991#bib.bib22)) 保持区分：前者决定**要做什么**，后者预测**会发生什么**。将两者合并到一个模型中（正如最近一些提议所做的 (Ye et al., 2026 (https://arxiv.org/html/2606.23991#bib.bib46); Li, 2026 (https://arxiv.org/html/2606.23991#bib.bib8); NVIDIA, 2026a (https://arxiv.org/html/2606.23991#bib.bib7))）会将奖励驱动的行动选择与保真度驱动的下一状态预测混为一谈，从而损害规划和模拟的可靠性。在高层次上，构建和训练一个智能体模型涉及五个关键方面：**目标、身份、决策、自我调节和学习**。过去两年见证了被标记为智能体的系统的爆炸式增长，伴随而来的是关于如何设计此类系统的相互竞争的学派。这些尝试中提供了解决上述某些方面的建议，但尚未出现一个将所有方面统一在单个可实现框架中的系统性处理方法。在本文中，我们对这些方法进行分类，并分析它们在对可扩展和通用能动性的追求中的局限性。基于此，我们引入了 **GIC**（Goal-Identity-Configurator）架构，它为人工能动性的五个方面以及由此产生的、在一个单一自适应系统内（配以一个单独学习的世界模型）的能力提供了具体方案。具体而言，GIC 架构结合了：1）具有持久目标的**分层目标分解**；2）无需重新训练即可适应的**演化身份**；3）通过内部世界模型（系统 II）进行**模拟规划**，同时具备反应性行动（系统 I）；4）通过一个学习到的配置器（系统 III）**自我调节**何时以及多么深入地进行推理；5）从真实和模拟经验中进行**自我导向学习**。我们将在后续章节中详细阐述这些想法。

## 2 能动性系统与智能体性系统之间的界限

在介绍了能动性系统（通过外部编排的工具和工作流完成任务）与智能体性系统（其能力源于内部组织）之间的区别之后，我们现在形式化它们所差异的维度。我们的目标不是否定现有的能动性系统，而是识别真正能动性所需的最小属性，作为启发合理设计和实施的指南。下面的每个维度都定义了一个光谱：在一端，相关结构完全由外部工程规定；在另一端，它由智能体作为其自身决策的一部分在内部维护和修订。

### 2.1 预备知识：智能体-环境模型

图 2：智能体在环境中行动以达成目标的示意图。

我们从一个最小化的序贯决策制定公式开始，作为后续讨论的中立基础。考虑一个环境（或**宇宙**），由一个随机动力系统 μ 表示，包含虚拟、物理和社会组成部分。环境在由 t 索引的离散时间步上演变（连续时间步可通过无穷小的离散步来近似）。令 s\_t 表示时间 t 时世界（和内部）状态，a\_t 表示一个行动。环境定义了一个转移分布 p\_μ(s\_{t+1}∣s\_t, a\_t)，而智能体被建模为一个策略 π，它产生一个行动分布 p\_π(a\_t∣s\_t)。给定初始状态 s\_t，π 和 μ 之间的交互诱导出一个轨迹分布：

p\_μ^π(a\_t, s\_{t+1}, ..., a\_{T-1}, s\_T ∣ s\_t) = ∏\_{k=t}^{T-1} {p\_π(a\_k ∣ s\_k)} 智能体 {p\_μ(s\_{k+1} ∣ s\_k, a\_k)} 宇宙。 (1)

方程 (1) 描述了可观察的交互动态，没有假设智能体的任何特定内部结构。这种因子分解也将我们讨论的主题分解为两个对象：**智能体**因子 p\_π(a\_k ∣ s\_k)，它决定**要做什么**；以及**宇宙**因子 p\_μ(s\_{k+1} ∣ s\_k, a\_k)，它决定**接下来会发生什么**。**智能体模型** (AM) 是前者的学习实现；**世界模型** (WM) 是后者的学习近似。我们注意到，“世界模型”一词最近被更广泛地使用，不仅包括下一状态预测，还包括下一行动生成 (Ye et al., 2026 (https://arxiv.org/html/2606.23991#bib.bib46); Li, 2026 (https://arxiv.org/html/2606.23991#bib.bib8); NVIDIA, 2026a (https://arxiv.org/html/2606.23991#bib.bib7))，实际上将方程 (1) 的两个因子合并成了一个对象。在本文中，我们保持它们区分：“世界模型”严格指宇宙因子，“智能体模型”指智能体因子以及用于实现它的内部结构（下文介绍）。我们认为，缺乏对智能体模型（区别于世界模型）的清晰、功能性定义，可能导致了行动生成中的混淆。

智能体模型批判

相似文章

@omarsar0: 关于自主AI作为通往AGI的可预见路径的有趣观点论文。（收藏）一直存在激烈争论……

大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子

观点：Agentic AI系统是实现AGI的可预见路径

AI智能体容易构建，但问责更难。

元智能体挑战：当前智能体能否自主开发智能体系统？

提交意见反馈