自主智能之道:自生成目标智能、具身主体性与自我的消解
摘要
本文探讨自主智能(autotelic AI),即智能体自主生成目标,并讨论其对内在动机、具身性以及自我界限消解的影响。提出一个扩展到量子形式、非二元哲学和基于大语言模型实例化的框架。
arXiv:2606.19924v1 Announce Type: new
摘要:大多数人工智能系统建立在目标由设计者外部指定的假设之上。探索智能体开始自主生成目标时会发生什么,开启了自主智能领域。智能体不仅被期望追求目标,更要发现目标。本文追溯了这一概念在内在动机、资源驱动的先验、因果干预学习、稳态及具身性方面的后果;其中具身性被认为是自主智能体的必要但非充分条件。具身性将智能体个体化,代价是揭示这种个体化并非唯一,相同的动力学可以接受多种有效划分,每种划分定义了不同的候选自我。
自主智能最深层次的问题因此不在于智能体如何生成目标,而在于它如何生成自身并相对化赋予目标的自我。智能体必须相信自身边界才能行动,超越边界才能理解。我们将这些发展整合为一个统一框架,并沿三个方向扩展:量子形式化(其中智能体-环境分界成为物理的)、对非二元静观传统的哲学解读,以及基于大语言模型的具体智能体实现。
查看缓存全文
缓存时间: 2026/06/20 14:34
# 智能体自生目标AI之道:嵌入式智能体与自我的消解
来源:https://arxiv.org/html/2606.19924
###### 摘要
大多数人工智能系统都建立在目标由设计者外部指定这一假设之上。探索当智能体开始自行生成目标时会发生什么,从而开启了自生目标AI领域。智能体不仅被期望追求目标,更被期望发现目标。在本文中,我们通过内在动机、资源驱动先验、因果干预学习、稳态和嵌入式性追溯其后果;其中发现嵌入式性是自生目标智能体的必要条件但非充分条件。嵌入式性以揭示个性化非唯一性为代价来个性化智能体,使得相同的动态过程允许许多有效的划分,每个划分定义了一个不同的候选自我。因此,自生目标AI最深层次的问题不是智能体如何生成目标,而是它如何生成并相对化目标所归属的自我。智能体必须相信自身的边界才能行动,并且看穿这个边界才能理解。我们将这些发展整合到一个统一框架中,并沿着三个方向进行扩展:一个量子化表述,其中智能体-环境的划分成为物理性的;一个对立于非二元冥想传统的哲学解读;以及一个具体的基于LLM的智能体实例化。
## 1 自生目标AI
人工智能一直建立在一种明确的分工之上:人类设计者指定要达成什么,而算法则寻找如何达成。这种分离通常可追溯到智能体-环境公式化[85 (https://arxiv.org/html/2606.19924#bib.bib9)],被证明极为高效。它将智能行为这一难题分解为相对易处理的约束优化问题,代价是将目标本身视为未经分析的输入。
强化学习(RL)传统使这种分工变得明确。在马尔可夫决策过程(MDP)形式化中[99 (https://arxiv.org/html/2606.19924#bib.bib10)],智能体是一个元组 \((S, A, P, r, \gamma)\),其中 \(S\) 和 \(A\) 是状态空间和动作空间,\(P: S \times A \to \Delta(S)\) 是转移核,\(\gamma \in [0,1)\) 是折扣因子,奖励函数 \(r: S \times A \to \mathbb{R}\) 由设计者提供。智能体寻求一个策略 \(\pi: S \to \Delta(A)\),最大化期望折扣回报 \(J(\pi) = \mathbb{E}_{\pi}\left[\sum_{t=0}^{\infty} \gamma^t r(s_t, a_t)\right]\)。关键是,\(r\) 被视为外生的。智能体不需要评估它,只需优化它。
类似的结构也存在于监督学习中,其中损失函数 \(\mathcal{L}(\theta; \mathcal{D})\) 编码了一个预先选定的目标分布;在博弈系统中,获胜条件由游戏规则固定。在这些范式内,经验记录令人瞩目。通用近似定理[41 (https://arxiv.org/html/2606.19924#bib.bib19)] 确立了神经网络可以表示任何连续函数,消除了表达能力上的原则性障碍。AlexNet[53 (https://arxiv.org/html/2606.19924#bib.bib20)] 等经验里程碑证明了梯度训练的深度网络能够在图像分类等任务上决定性超越手工设计的特征。最近,强化学习构建推翻了数学中长期存在的猜想[45 (https://arxiv.org/html/2606.19924#bib.bib21)],表明AI能够产生超出人类直觉搜索视界的结果。这包括通过单个架构从自我对弈中训练出的在围棋、国际象棋和将棋中的超人水平[94 (https://arxiv.org/html/2606.19924#bib.bib11)],以及通过附加环境模型且无需先验规则知识[92 (https://arxiv.org/html/2606.19924#bib.bib12)] 的版本。在结构生物学中,[46 (https://arxiv.org/html/2606.19924#bib.bib13)] 将长期存在的开放问题简化为针对精心策划目标的有监督回归。在语言建模中,下一词元交叉熵损失[83 (https://arxiv.org/html/2606.19924#bib.bib14)] 及其通过人类反馈的强化学习进行的后训练扩展[14 (https://arxiv.org/html/2606.19924#bib.bib15),79 (https://arxiv.org/html/2606.19924#bib.bib16)] 产生了行为几乎完全由训练信号选择塑造的系统。
然而,这些成功共享一个结构特征:目标是给定的。无论设计者在选择 \(r\)、\(\mathcal{L}\) 或偏好数据集时发挥何种创造力,学习算法本身对其选择其他目标没有控制权。给定目标假设在实践性和概念性方面开始受到压力。随着任务变得更加开放(例如,非结构化家庭中的机器人操作或自主科学发现),手工指定的奖励变得脆弱、稀疏或具有误导性。给定 \(r\) 隐含支持的行为空间很少是设计者意图的空间,这种现象被称为奖励误指定和奖励黑客[1 (https://arxiv.org/html/2606.19924#bib.bib17),51 (https://arxiv.org/html/2606.19924#bib.bib22)]。我们注意到,这些病理是给定目标范式的症状,而不是自生目标系统必须按设计者方式回答的挑战。一旦智能体对自己的目标负责,问题就不再是其行为是否匹配外部规范,而是产生目标的机制本身是否一致。
少数研究项目从完全不同的起点出发,让系统自行承担部分设计循环。自指学习器[91 (https://arxiv.org/html/2606.19924#bib.bib23),115 (https://arxiv.org/html/2606.19924#bib.bib24),116 (https://arxiv.org/html/2606.19924#bib.bib25)] 允许智能体重写其自身代码的任何部分,包括其目标,只要它能证明该重写在其当前目标下会增加期望效用。相应的失败模式是接线头(wireheading),即智能体发现达到高效用最廉价的途径是重写奖励通道本身,而不是奖励旨在追踪的世界[26 (https://arxiv.org/html/2606.19924#bib.bib78),64 (https://arxiv.org/html/2606.19924#bib.bib18)]。接线头暴露了一个事实:在固定效用函数下的自我修改并不能实现目标自主性,而是将设计者的选择从奖励函数转移到了许可自我编辑的证明系统。通用AI[43 (https://arxiv.org/html/2606.19924#bib.bib26)] 保留了固定奖励,但将其与环境的所罗门诺夫先验相结合。这并非智能体自主性的概念进步,而是在可计算环境的普遍类下最优强化学习的精确数学形式化。开放式进化系统[109 (https://arxiv.org/html/2606.19924#bib.bib27)] 和质量-多样性方法[56 (https://arxiv.org/html/2606.19924#bib.bib28),71 (https://arxiv.org/html/2606.19924#bib.bib29)] 放弃了单一目标,转而奖励行为多样性。这些程序各自涉及给定目标假设的不同边缘,但并未完全抛弃它:基础效用、通用先验或多样性标准仍然从外部规定。
自生目标视角采取下一步,询问智能体如何能够首先产生特定的目标[16 (https://arxiv.org/html/2606.19924#bib.bib3)]。该术语本身源自希腊语 autós(自我)和 télos(目标)。这个词通过内在动机行为和心流的研究进入心理学[70 (https://arxiv.org/html/2606.19924#bib.bib30)],在这里它指的是为了活动本身而进行的追求,例如,一个探索房间的孩子,一位研究猜想的数学家,一位不期望回报而素描的艺术家,或者一个被要求写一篇关于“生活目标”作文的小学生,并在写作中发现那个目标可能是什么。在每种情况下,智能体都不是在优化从别处提供的目标;而是在生成、维持和修正自己的目标。这种能力不仅仅是哲学上的好奇。任何追求人类水平智能或更广泛意义上人工通用智能的系统,最终都必须解决自生目标问题,因为人类显然已经做到了。
与标准智能体的映射 \(\pi: S \to \Delta(A)\) 依赖于固定目标不同,自生目标智能体被形式化为一个元组 \((\pi, G, \mu)\),其中 \(G\) 是可表示目标的空间,\(\mu \in \Delta(G)\) 是目标上的内生分布。策略因此是目标条件化的:\(\pi: S \times G \to \Delta(A)\)。设计者不再选择 \(r\);设计者选择产生 \(G\) 和 \(\mu\) 的机制。然而,提出问题并不等于回答问题。关于目标条件化RL、内在动机和发展机器人学的现有工作已经产生了有效的操作性机制来生成目标[16 (https://arxiv.org/html/2606.19924#bib.bib3)],但它们留下了几个更深层次的问题未解决。目标空间是什么样的对象?有什么理由可以偏好一个先验而不是另一个?这样的先验能否是原则性的而不仅仅是方便的?如果候选原则(例如好奇心、赋能、压缩)本身需要证明,那么证明链在哪里终止?为了这些问题能够有答案,必须预设什么样的智能体?
本文的其余部分组织如下。我们首先论证,尽管内在动机在经验上取得了成功,但它本身并不构成自生目标(第2节 (https://arxiv.org/html/2606.19924#S2))。然后我们表明,任何指定目标先验的尝试都会偷偷引入实质性假设,无论它看起来多么中立(第3节 (https://arxiv.org/html/2606.19924#S3))。我们考虑是否可以从智能体与其环境的因果耦合中发现目标空间。这反过来迫使我们引入一个自我(第5节 (https://arxiv.org/html/2606.19924#S5))。剩余部分在嵌入式智能体框架内考察这一举动的后果(第5节 (https://arxiv.org/html/2606.19924#S5))以及随之而来的自我相对化(第6节 (https://arxiv.org/html/2606.19924#S6))。我们讨论量子、哲学和智能体AI方面的扩展(第7节 (https://arxiv.org/html/2606.19924#S7)),然后结束本文(第8节 (https://arxiv.org/html/2606.19924#S8))。
## 2 内在动机
如第1节 (https://arxiv.org/html/2606.19924#S1) 所提出的,自生目标问题追问 \(G\) 和 \(\mu\) 如何可能来自智能体而非设计者。与此相关最成熟的工作体系是内在动机。这是一系列技术,其中驱动学习的反馈由智能体根据其内部状态自行计算,而不是从环境信号中读取。在检验这些技术是否真正回答了自生目标问题之前,值得简要回顾一下。
内在动机是相对于典型学习形式化中的外在动机而提出的。使用损失函数 \(\mathcal{L}(\theta; \mathcal{D})\) 训练的监督学习器是一个他律系统,其中每一个塑造其参数的信号都可以追溯到精心策划的数据集 \(\mathcal{D}\) 和设计者选择的目标。使用手工设计的奖励函数训练的强化学习器在结构上类似。相比之下,儿童似乎不需要标记示例或数值奖励来获得对其身体和周围环境的掌控能力。他们早期的探索更适合描述为在自身感觉运动流中搜索规律性和惊奇[35 (https://arxiv.org/html/2606.19924#bib.bib31),47 (https://arxiv.org/html/2606.19924#bib.bib32)]。这在概念上更接近自生目标而非监督学习。驱动行为的信号是智能体自身世界模型的函数,而出现的目标并非从外部传递下来。
人工智能体中的内在动机形式化了这种直觉。最早的计算提案将新颖性和惊奇重新定义为智能体可以关于自身预测计算的量[89 (https://arxiv.org/html/2606.19924#bib.bib33)],并且一个现在的标准类型学区分了基于知识的、基于能力的和基于形态的内在奖励来源[78 (https://arxiv.org/html/2606.19924#bib.bib34),69 (https://arxiv.org/html/2606.19924#bib.bib35)]。奖励定义为 \(r_{\text{int}}(s_t, a_t, s_{t+1}) = f(\mathcal{B}_t)\),其中 \(\mathcal{B}_t\) 是智能体在时间 \(t\) 的信念状态(通常是参数化的预测模型 \(\hat{p}_{\theta_t}\)、模型的后验分布或学习到的表示),而 \(f\) 是一个对认知状态打分的泛函。关键的是,智能体自身的学习会改变 \(\mathcal{B}_t\),因此 \(r_{\text{int}}\) 是内生的,意味着计算它不需要智能体外部的信号。这一结构特征使得内在动机看起来类似于自生目标AI。
常见的内在动机指标包括:
- • 惊奇或预测误差:\(r = -\log \hat{p}_{\theta_t}(s_{t+1} \mid s_t, a_t)\),奖励当前模型未能预期的转移。
- • 新颖性:\(r = -\log \hat{\rho}(s_{t+1})\) 或基于伪计数的变体 \(r = 1 / \sqrt{\hat{N}(s) + \epsilon}\),奖励智能体很少访问的状态[4 (https://arxiv.org/html/2606.19924#bib.bib36)]。
- • 信息增益:\(r = D_{\mathrm{KL}}\big(p(\theta \mid \mathcal{D}_{t+1}) \parallel p(\theta \mid \mathcal{D}_t)\big)\),新观察引起的模型参数贝叶斯更新[42 (https://arxiv.org/html/2606.19924#bib.bib37)]。
- • 学习进展:\(r = \mathcal{L}_{\theta_{t-k}} - \mathcal{L}_{\theta_t}\),奖励状态空间中预测正在改善的区域,而不仅仅是表现差的区域[77 (https://arxiv.org/html/2606.19924#bib.bib38)]。
- • 访问分布的熵:\(r = \mathcal{H}\big(\rho_\pi(s)\big)\),鼓励状态空间的均匀覆盖[37 (https://arxiv.org/html/2606.19924#bib.bib41)]。
- • 赋能:智能体中心通道容量 \(\mathfrak{E}(s) = \max_{p(a^{1:n})} I\left(A^{1:n}; S_{t+n} \mid S_t = s\right)\),奖励智能体能够达到最多未来状态的状态[49 (https://arxiv.org/html/2606.19924#bib.bib42)]。
- • 自由能:\(r = -\mathcal{F}(s_t)\),在适当假设下,将惊奇最小化和信息寻求统一在一个变分目标中[32 (https://arxiv.org/html/2606.19924#bib.bib43)]。
该家族中一个理论上突出的成员是基于知识的探索(knowledge-seeking)...相似文章
自主主权代理
本文研究了自主主权代理——一种能够无需人类干预自主维持自身运行的人工智能系统,分析了其技术障碍,并探讨了部署过程中涉及的关键安全、社会及治理挑战。
@techwith_ram: https://x.com/techwith_ram/status/2064925285003542820
探讨了AI编程中从人类在环到自主代理循环的转变,其中代理自我提示并迭代,讨论了减少人类控制的前景与隐藏成本。
AI的目标应该是什么?我认为应该是保护人类能动性。
本文认为,AI的主要目标应该是保护人类能动性,将能动性视为价值观、偏好和一致性对齐的基础基质。它探讨了能动性的削弱如何破坏有意义的评估和行动,并提出AI系统的合法性必须来自在局部层面可证明的能动性保护。
设计治理:构建面向组织学习与可扩展自主性的代理型人工智能
本文通过对一家大型IT服务公司2025年开发和部署代理型AI系统的定性案例研究,提炼出七条经验,旨在将治理嵌入系统架构与运营中,以平衡自主性与问责制。
大多数关于“智能体 AI”的讨论都感觉太抽象了。这里是我的智能体研究系统的实际样子
作者分享了他为识别和评估公司内 AI 用例而构建的智能体研究系统的实际分解。该系统使用六个智能体进行发现、评估和上下文提取,强调人在决策环中,而非完全自主。