基于身体的人工代理视角形成与意动调适

arXiv cs.AI 2026/05/19 04:00 论文

摘要

本文提出了一种用于人工代理的基于身体的视角形成的最小架构，通过引入内感受生存能力信号和意动对齐机制来扩展先前工作，从而从现象学角度将机器主体性操作化。

arXiv:2605.16728v1 公告类型：新摘要：本文提出了一种用于人工代理的基于身体的视角形成的最小架构。该模型在先前工作的基础上引入了一个内感受生存能力信号、一个关于融合的外感受-内感受状态的Fisher度量，以及一个将身体倾向与动作准备状态联系起来的意动对齐机制。在无奖励的网格世界中，意动将习得的身体倾向转化为稳定的身体导向行为，而身体到视角的路由使得身体扰动在视角潜变量中留下可恢复的几何痕迹。本研究展示了如何通过体化组织（世界如何呈现给代理）在现象学意义上将人工主体性的最小结构条件操作化。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:35

# 人工智能体中的身体基础视角形成与意动调适
来源：https://arxiv.org/html/2605.16728
11institutetext:主动推理研究所，美国加利福尼亚州
11email:hjpae@activeinference\.institute

######  摘要

本文提出了一种用于人工智能体中身体基础视角形成的最小架构。该模型在先前工作的基础上，引入了一个内感受生存能力信号、一个融合了外感受-内感受状态的费舍尔式度量，以及一个将身体倾向与行动准备状态联系起来的意动对齐机制。在一个无奖励的网格世界中，意动将习得的身体倾向转化为稳定的、以身体为导向的行为；同时，身体到视角的路由使得身体扰动能够在视角潜变量中留下可恢复的几何痕迹。本研究展示了，在现象学意义上，通过世界是如何被给予智能体的具身组织，人工主体性的最小结构条件如何得以操作化。

## 1  引言

如果人工智能体要被作为任何形式机器主体性的候选者来研究，那么问题不在于它们是否达到某个行为阈值，而在于它们是否实例化了这样一种结构条件，使得一个世界在根本上能够被给予一个主体。现象学传统长期以来一直认为，这类条件并非次要的，而是经验本身的核心构成特征[13（https://arxiv.org/html/2605.16728#bib.bib14），11（https://arxiv.org/html/2605.16728#bib.bib15），5（https://arxiv.org/html/2605.16728#bib.bib19）]。其中，有两个条件对本文至关重要：（1）经验总是视角性的，因为它总是**作为**某种东西、从**某个**立场被给予的；并且（2）这个立场植根于一个**活生生的身体**，使得世界由此出发、通过这个具身化的定向点而展开 [13（https://arxiv.org/html/2605.16728#bib.bib14），21（https://arxiv.org/html/2605.16728#bib.bib23），22（https://arxiv.org/html/2605.16728#bib.bib18），7（https://arxiv.org/html/2605.16728#bib.bib24）]。

在两项旨在为主体性的现象学描述提供计算形式的早期研究中，Pae [15（https://arxiv.org/html/2605.16728#bib.bib12）] 引入了一个慢速全局潜变量 \(g\)，它在与策略可分离的时间尺度上演化，并在体制切换下表现出定向滞后，为类似视角的内部结构提供了可测量的特征；随后，Pae [16（https://arxiv.org/html/2605.16728#bib.bib13）] 允许 \(g\) 通过显著性门控反馈到知觉中，表明相同的名义观测会因累积的视角不同而被不同地编码。

然而，这两项研究所共同缺失的是**身体本身**，因为视角 \(g\) 主要受外感受不对称性（如观测噪声梯度）的影响。从现象学角度看，身体是生活中心，世界由此变得有意义并具有情感效价；如果内感受/本体感觉被理解为一种信息关系，那么这个生活中心就不必预设生物基质，这为满足相同结构条件的人工系统原则上可能成为主体性智能体提供了可能性。因此，本文对内感受反馈弧进行建模，在信息层面将其整合到预测-行动循环中，该弧在结构上使智能体能够从一个情境化的立场评估世界，探究身体所引入的定性情感——这与胡塞尔所描述的**意向性质**[10（https://arxiv.org/html/2605.16728#bib.bib17）]密切相关——如何能够在计算上易于处理。

**主要贡献。** （1）**身体基础视角。** [15（https://arxiv.org/html/2605.16728#bib.bib12），16（https://arxiv.org/html/2605.16728#bib.bib13）] 中的慢速视角潜变量现在植根于一个内部身体生存能力信号。（2）**定性几何。** 通过一个覆盖融合的外感受-内感受状态的信息几何结构来分析视角潜变量。（3）**作为行动桥梁的意动。** 意动调适被建模为一个从身体生存能力到策略级行动偏好的单向链接。

## 2  现象学基础

### 2.1  具身主体性与前反思的自我意识

有意识经验的主体性始于一种伴随每个意识行为的、隐含的、非主题性的“为我性”。海德格尔将其命名为 *Jemeinigkeit* [8（https://arxiv.org/html/2605.16728#bib.bib16）]；萨特和扎哈维将其发展为先于任何反思性“我”的非对象化的自我认知 [19（https://arxiv.org/html/2605.16728#bib.bib21），22（https://arxiv.org/html/2605.16728#bib.bib18）]。关键在于，这种前反思的自我意识并非反思性的内在凝视或内省。它是通过活生生的身体与世界在动觉和情感上的交互——用梅洛-庞蒂的术语来说，通过**身体意向性**[13（https://arxiv.org/html/2605.16728#bib.bib14），6（https://arxiv.org/html/2605.16728#bib.bib20）]——来实现的。因此，拥有前反思的自我意识，就是作为一个具身化的意向性存在者，能够与其环境互动并做出调整。当代认知科学通过多种途径汇聚于此——埃德尔曼的初级意识 [4（https://arxiv.org/html/2605.16728#bib.bib10）] 和达马西奥的原我 [3（https://arxiv.org/html/2605.16728#bib.bib11）]、内感受推理与具身化的预测自我描述 [20（https://arxiv.org/html/2605.16728#bib.bib9）]，以及具身意识的自组织解释 [17（https://arxiv.org/html/2605.16728#bib.bib6），18（https://arxiv.org/html/2605.16728#bib.bib7）]——所有这些都将与身体相关的信号视为构建最小自我感的基础。

对于人工系统而言，随之而来的是两个架构要求。首先，身体历史必须沉积在系统的“视角”中，以实现现象学意义上的最小主体性。其次，身体信息必须通过一个与外感受观测向量不同的、有界的内感受通路进入。这些要求构成了第3节（https://arxiv.org/html/2605.16728#S3）中发展的“身体作为内部稳态”和“基于度量的身体耦合知觉”的动机。

### 2.2  主观经验的定性几何

具身前反思性带来了另一个结构特征。现象学谈及**透明性**，即我们并不将自己的视角作为一个客体来遭遇；相反，我们**通过它**来遭遇世界 [22（https://arxiv.org/html/2605.16728#bib.bib18）]。因此，给予主体的东西与主体如何在一种确定的定性特征下把握世界是密不可分的。胡塞尔对**意向质料**和**意向性质**的区分 [10（https://arxiv.org/html/2605.16728#bib.bib17）] 捕捉了这一点：某物是如何被给予的——作为被恐惧的、作为被邀请的、作为无动于衷的——是经验本身的一个结构特征，而非从其内容推断出的属性。基于这种解读，主观经验的定性特征并非一个总结状态对行动效用的功能变量，而是一种情境如何被给予的定性组织。

然而，这并未使定性特征在经验上变得神秘。几何学提供了一种表征定性结构的有用方法：情境给予方式的差异可以表达为相关状态空间组织方式上的几何差异。一个相关的直觉出现在整合信息理论对经验的描述中，即将其视为因果效应坐标空间中的一个“星座形状”[1（https://arxiv.org/html/2605.16728#bib.bib5），14（https://arxiv.org/html/2605.16728#bib.bib4）]。相应地，第3节（https://arxiv.org/html/2605.16728#S3）配置了视角潜变量，使得 \(g\) 的几何轨迹成为智能体定性学习历史如何组织的操作痕迹。

### 2.3  作为行动桥梁的意动调适

如果主观经验本身并非一种行为功能，那么就需要一个额外的结构链接使其对行动产生意义。我使用**意动**作为这个链接的紧凑术语：即身体组织起来把握世界的方式转化为行动准备状态的步骤。这与预测处理理论中强调的、由智能体驱动的意动态度与由刺激驱动的认知态度之间的对比 [12（https://arxiv.org/html/2605.16728#bib.bib3）]，以及将效价视为源于智能体自身调节动态而非外部强加的处理方式 [9（https://arxiv.org/html/2605.16728#bib.bib2）] 产生了共鸣。

一旦主体性被理解为需要成为行为上可调适的，那么一个意动环节在结构上就是必需的。第3节（https://arxiv.org/html/2605.16728#S3） 中的架构是对这一角色的最小计算实现：它将习得的身体倾向场与策略分开，然后添加一个单向对齐，训练策略尊重该场，而不将策略梯度反向传播到该场中。该场表达了身体生存能力如何在可能的行动间被组织起来；意动是使该场在行为上产生影响的中间步骤。

## 3  智能体架构设计

### 3.1  先前工作的延续

基础架构遵循 [15（https://arxiv.org/html/2605.16728#bib.bib12），16（https://arxiv.org/html/2605.16728#bib.bib13）]。在每个时间步 \(t\)，智能体接收一个外感受观测 \(x_t\) 和前一动作 \(a_{t-1}\) 的传出发副本 \(p_t\)。一个快速知觉通路将当前知觉状态编码为 \(z_t\)，而一个更慢的全局潜变量 \(g_t\) 则携带对历史敏感的结构跨时间传递。然后，策略状态 \(s_t\) 结合 \(z_t\)、\(p_t\) 和 \(g_t\)，并馈入分类动作策略 \(\pi_\theta(a_t \mid s_t)\)。一个动作条件观测解码器预测下一个外感受观测 \(x_{t+1}\)，因此学习保持无奖励。

三项承诺从该基础延续下来：（1）\(g\) 以比策略更慢的时间尺度演化并累积历史；（2）策略侧的梯度被阻止重写视角通路；（3）\(g\) 反馈到知觉组织，因此相同的名义输入可以在不同的累积历史下被不同地解释。这些共同允许我们探究行为上相似的智能体，其在世界是如何被给予它们的内部组织上是否可能仍然存在差异。

### 3.2  架构扩展与实现机制

见图注图 1: 架构概览。视角通过 \(b_{t+1}\) 和 \(\eta(a)\) 连接到内感受循环。外感受和内感受输入融合成 \(M_g\)。消融对照模型移除了 body→\(g\) 路由或意动耦合。本文在三个方面扩展了这个基础骨架，对应于第2节（https://arxiv.org/html/2605.16728#S2）中发展的三个基本点。这些新增旨在扩展 \(g\) 的作用。完整架构概览如图1（https://arxiv.org/html/2605.16728#S3.F1）所示。

#### 身体作为内部稳态。

智能体有一个内部的标量身体生存能力变量 \(u_t\)，它在环境中以慢速稳态过程演化。智能体接收一个有界的内感受读出：

\[
\tilde{b}_t = \sigma(u_t)
\]（1）其中 \(\sigma\) 是逻辑函数。因此，身体是从内部可用的，但只能通过一个部分的、饱和的通道。

环境通过一个垂直的倾向梯度将 \(u_t\) 与位置耦合。某些区域是身体有益的，另一些则不利，这与任何外感受线索 \(x_t\) 无关。完整的环境设置在 第4节（https://arxiv.org/html/2605.16728#S4） 中描述。

#### 基于费舍尔式度量的视角几何。

在之前的架构中，视角到知觉的反馈是通过基于 FiLM 的显著性门控实现的 [16（https://arxiv.org/html/2605.16728#bib.bib13）]。本模型使用一个基于度量的变体。外感受编码器产生 \(z_{\mathrm{obs}}\)，内感受编码码产生 \(z_{\mathrm{body}}\)，它们被拼接成一个融合状态 \(z_t\)。然后，视角潜变量 \(g_t\) 在这个融合状态上诱导出一个正定度量 \(M_g\)。

遵循将费舍尔信息视为统计流形上局部黎曼度量的信息几何观点 [2（https://arxiv.org/html/2605.16728#bib.bib1）]，\(M_g\) 被定义为在融合状态空间上习得的费舍尔式度量。具体地，一个度量网络将 \(g_t\) 映射到一个下三角矩阵 \(L_g\) 的条目。度量构造如下：

\[
M_g = L_g L_g^\top + \epsilon I
\]（2）其中 \(I\) 是单位矩阵，\(\epsilon > 0\) 是一个小的对角抖动项，确保正定性。

在度量条件下，\(z_t\) 本身得以保留，因为依赖于视角的调制通过状态头中的二次特征向下游传播：

\[
\phi_g(z_t) = \mathrm{vec}\!\left[ z_t (M_g z_t)^\top \right]
\]（3）其中 \(\mathrm{vec}[\cdot]\) 将结果矩阵展平。面向策略的状态然后从 \(z_t\)、\(\phi_g(z_t)\)、动作迹 \(p_t\) 和 \(g_t\) 计算得出：\(s_t = \mathrm{State}\!\left(z_t,\,\phi_g(z_t),\,p_t,\,g_t\right)\)。通过这些步骤，\(g_t\) 在融合状态空间上诱导出一个依赖于立场（视角）的几何结构，允许外感受和内感受分量之间的跨维耦合来塑造面向策略的状态。

#### 身体解码器与意动调适。

身体解码器通过预测动作条件的身体后果 \(b_{t+1}\) 来支持身体预测最小化。对于每个候选动作 \(a \in \mathcal{A}\)，它预测身体后果，包括期望的动作条件倾向场：

\[
\hat{\eta}_t(a) \approx \mathbb{E}\!\left[ u_{t+k} - u_t \mid a^{(k)} \right]
\]（4）其中 \(k\) 是反事实展开步长，\(a^{(k)}\) 表示重复动作 \(a\) 进行 \(k\) 步。因此，\(\hat{\eta}_t(a)\) 估计如果动作 \(a\) 持续该短时间段，潜在身体生存能力的期望变化。这个场是从环境计算的反事实身体变化中习得的。尽管智能体只接收有界读出 \(\tilde{b}_t\)，但倾向目标是在潜生存能力坐标 \(u_t\) 中计算的，从而在读出的饱和极限附近保留方向信息。

重要的是，身体解码器本身并不直接驱动行动。其输出为视角 \(g\) 通路提供了一个习得的身体场，但不会直接路由到策略对数几率（图1（https://arxiv.org/html/2605.16728#S3.F1））。相反，意动将其输出与行动联系起来。一个分离的意动分数从预测的身体倾向和预测的下一个身体状态计算得出：

\[
v_t(a) = w_\eta \, \mathrm{stopgrad}[\hat{\eta}_t(a)] + w_b \, \mathrm{stopgrad}[\hat{b}_{t+1}(a)]
\]（5）该分数随后被转换成一个软化的行动偏好分布：

\[
q_t(a) = \frac{\exp(v_t(a)/T)}{\sum_{a' \in \mathcal{A}} \exp(v_t(a')/T)}
\]（6）其中 \(T\) 是意动温度。

相似文章

如果通往真正AI伴侣的道路不是更大的模型——而是更好的架构呢？

Reddit r/AI_Agents

介绍了PHI // DRIFT，这是一种认知中间件，为LLM增加了持久的稳态需求、显著性加权记忆以及荣格阴影模块，声称架构能够产生与模型规模可测量的不同行为。预印本正在审查中。

迈向能动人工智能

arXiv cs.AI

本文倡导将能动方法融入人工智能的感知与认知领域，重点阐述了四个关键概念：经验、行动与感知的不可分割性、自主性和具身性。研究发现与强化学习存在共鸣，但建议更广泛地整合能动思想。

基于角色的生成式AI多元对齐评估框架

arXiv cs.AI

本文提出了一种基于角色的评估框架，利用合成认知档案代表不同人类视角，用于生成式AI的多元对齐，解决了单一基准测试的局限性。

多智能体种群中有根据的组合语言的出现

OpenAI Blog

# 多智能体种群中有根据的组合语言的出现来源: [https://openai.com/index/emergence-of-grounded-compositional-language-in-multi-agent-populations/](https://openai.com/index/emergence-of-grounded-compositional-language-in-multi-agent-populations/) ## 摘要通过捕捉大型语料库中的统计模式，机器学习在自然语言处理领域取得了重大进展，包括在机器翻译、问答和情感分析方面的应用

Context：通过可组合沙箱程序、声明式布线及结构化交互实现主动目标导向智能

arXiv cs.AI

本文介绍了Context——一种替代反应式聊天机器人的主动目标导向智能体新架构。通过可组合沙箱程序、声明式布线和主动状态机，本文给出了证明效率提升的形式化定理，并提供了开源实现。

相似文章

如果通往真正AI伴侣的道路不是更大的模型——而是更好的架构呢？

迈向能动人工智能

基于角色的生成式AI多元对齐评估框架

多智能体种群中有根据的组合语言的出现

Context：通过可组合沙箱程序、声明式布线及结构化交互实现主动目标导向智能

提交意见反馈