墙上的镜子:VLM 智能体究竟能否认识自己?
摘要
本研究引入了一个 3D 基准,用于评估视觉语言模型(VLM)智能体是否能够实现镜子自我识别,这是高阶认知能力的一种替代指标。研究发现,虽然更强的 VLM 可以利用反射证据指导行动,但较弱的模型往往无法提取与自身相关的信息或错误归因反射影像,这突显了语言顺从与基于现实的自我识别之间的区别。
arXiv:2605.08816v1 公告类型:新论文
摘要:在动物界,镜子自我识别是检验高阶认知能力的经典探针,仅出现在部分物种中。我们要问的是,具身视觉语言模型(VLM)智能体中是否出现了类似的功能能力:它们能认出镜子里的自己吗?我们引入了一个受控的 3D 基准,要求第一人称视角的 VLM 智能体从镜像中推断出隐藏的身体特征并选择匹配的目标,同时避免自我与他人的错误归因。为了将基于镜子的自我识别与捷径区分开来,我们测试了移除镜子、误导性线索和遮挡反射等情况。我们还通过镜子寻求行为、时间顺序、自我归因以及推理-行动一致性来评估决策过程。实验表明,基于镜子的自我识别主要出现在更强的 VLM 中。这些模型能够利用反射证据来指导行动,而较弱的模型虽然会观察镜子,却往往无法提取与自身相关的信息或错误归因自己的反射影像。语言-视觉冲突进一步表明,仅靠指代自我的语言并不能作为基于现实的自我识别的证据。总体而言,基于镜子的评估为判断具身自我 grounding(自我锚定/自我定位)是否因果性地根植于感知和行动,而非先验知识、提示词顺从或虚构,提供了诊断方法。
查看缓存全文
缓存时间: 2026/05/12 07:24
# VLM 智能体能识别出“我是谁”吗?
**来源**: https://arxiv.org/html/2605.08816
Filippo Ziliotto 帕多瓦大学 布鲁诺·克塞勒基金会
&Ciro Beneduce ¹¹ footnotemark:1 特伦托大学 布鲁诺·克塞勒基金会
&Bruno Lepri 布鲁诺·克塞勒基金会
Luciano Serafini 布鲁诺·克塞勒基金会
&Massimiliano Luca 布鲁诺·克塞勒基金会
&Tommaso Campari ²² footnotemark:2 布鲁诺·克塞勒基金会
###### 摘要
在动物界,镜子自我识别是高级认知的经典探针,仅在某些物种中出现。我们提出,类似的函数式能力是否在具身视觉-语言模型(VLM)智能体中涌现:它们能否在镜中识别出自己?我们引入了一个受控的 3D 基准测试,其中第一人称 VLM 智能体必须从自己的倒影中推断出隐藏的身体属性,并选择匹配的目标,同时避免将自我与其他个体混淆。为了将基于镜像的自我识别与捷径行为区分开来,我们测试了移除镜像、误导性线索以及遮挡倒影等情况。我们还通过镜像寻求、时间顺序、自我归因以及推理-行动一致性来评估决策过程。我们的实验表明,基于镜像的自我识别主要出现在更强的 VLM 中。这些模型可以利用反射证据进行行动,而较弱的模型通常会检查镜子但未能提取与自我相关的信息,或错误地归因其倒影。语言-视觉冲突进一步表明,仅凭自我指涉的语言并不能证明已实现扎根于感知的自我识别。总体而言,基于镜像的评估提供了一种诊断手段,用于判断具身自我扎根是否因果性地根植于感知和行动,而非先验知识、提示顺应或虚构解释。
**关键词**:视觉-语言智能体、多模态推理、自我识别、基准测试
## 1 引言
**图 1 标题**: 作为具身自我扎根测试的镜子自我识别。跨物种来看,镜子自我识别的选择性出现:人类、大象和海豚可以利用镜子反射来指导自我导向的行为,而其他动物则会失败或依赖更简单的策略。我们询问类似的能力是否在视觉-语言模型(VLM)智能体中涌现。在我们的设定中,具身智能体必须从镜子中推断出隐藏的身体属性并据此行动。成功不仅需要感知反射,还需要将其归因于自身而非其他实体。
视觉-语言模型(VLMs) increasingly 被用作具身智能体的决策模块,这些智能体必须在部分可观察性下进行感知、推理和行动。这使得视觉扎根至关重要:智能体不仅要描述所见之物,还要利用视觉证据来选择行动。尽管在识别、指令遵循、导航和多模态推理方面取得了显著进展,但当前的 VLM 仍然受到幻觉、弱视觉扎根以及空间推理失败的影响 [38, 12, 25, 5]。当推理对象不再是外部物体而是智能体自身时,这些局限性变得尤为重要。自我识别是具身智能体的基本要求。智能体必须将其自己的身体、状态和行动与其他智能体及物体区分开来。然而,在以自我为中心(第一人称)的感知下,与自我相关的信息通常位于相机视野之外,无法直接访问。镜子提供了一种受控的方式来测试这种能力:它们揭示隐藏的身体信息,同时要求智能体将反射的实体归因于自身,并利用该归因来指导行动。
镜子自我识别长期以来一直是比较认知领域的研究课题。经典研究表明,黑猩猩可以利用镜子反射来指导自我导向的行为 [9],后来的研究报道了海豚、大象和其他物种的相关行为 [23, 21]。然而,对镜子测试成功的解释仍存在争议。它可能反映自我意识,但也可能源于感觉运动匹配、习得的视觉-本体感觉关联或特定任务的策略 [3, 39]。这种谨慎的态度也应适用于具身智能体:流畅的自我指涉语言或正确的最终行动不足以证明已实现扎根于感知的自我识别。
在本文中,我们询问具身 VLM 智能体是否执行基于镜像引导的自我识别(图 1)。我们将其定义为一种函数式能力:智能体必须利用反射的视觉证据来推断自身身体的隐藏属性,然后利用该信息来指导目标导向的行为。这种框架测试了自我指涉行为是否扎根于感知和行动,而非由先验知识、提示顺应或虚构解释产生。
为了研究这个问题,我们引入了一个受控基准测试,其中由 VLM 控制的智能体从第一人称视角观察环境,并必须选择与隐藏身体属性(即其自身身体颜色)匹配的目标物体。该属性不可直接可见,只能通过镜子推断。我们还引入了诊断性干预措施,包括移除镜子、提供误导性语言线索或通过遮挡退化反射。这些条件使我们能够区分基于镜像的自我识别与捷径行为、语言偏见、场景先验和猜测。
我们基准测试的一个关键方面是它同时评估结果和决策过程。目标选择准确性表明智能体是否正确行动,但并不能说明决策是否基于镜像证据。因此,我们还测量了镜像咨询、镜像注视持续时间、镜像观察与行动之间的时间顺序、语言中的自我归因以及虚构现象。这种过程级别的评估是必要的,因为具身 VLM 可能在依赖弱扎根或非视觉捷径的同时显得有能力 [12, 25, 5]。
我们的实验表明,基于镜像引导的自我识别可以在更强的 VLM 智能体中涌现,但仍很脆弱。一些模型利用反射证据来指导行动,而另一些模型则在未提取相关自我属性的情况下检查镜子。我们还发现,自我指涉语言不是扎根于感知的自我识别的可靠代理:即使在没有镜像证据、存在误导或退化的情况下,模型仍经常产生连贯的第一人称解释。这些结果表明,基于镜像的评估对于诊断 VLM 智能体中的具身自我扎根是一种有用的手段。
我们的贡献如下:
(i) 我们将基于镜像引导的自我识别框架化为 VLM 智能体的函数式具身能力,并引入了一个受控的 3D 基准测试,要求智能体从镜像证据中推断隐藏的与自我相关的属性并据此行动;
(ii) 我们设计了移除镜像证据、引入误导性语言以及退化反射的干预措施,以测试行为是否依赖于视觉自我扎根;
(iii) 我们提出了涵盖任务成功、证据寻求、时间顺序、自我归因和虚构现象的过程级指标;
(iv) 我们表明,基于镜像引导的自我识别主要出现在更强的 VLM 中,而较弱的智能体通常咨询镜子但无法可靠地使用反射证据,经常将自己误认为是另一个智能体。
## 2 相关工作
**用于具身推理的视觉-语言模型**。视觉-语言模型(VLMs)将视觉感知与语言条件推理联系起来,并在识别、字幕生成、视觉问答、导航和多模态推理方面表现出强大的零样本和少样本性能 [38]。在具身设定中,它们可以将视觉观察和指令映射为高级计划或行动,但强大的多模态性能并不一定意味着扎根于感知的视觉推理:VLM 仍然受到幻觉、弱模态对齐、文本先验以及在空间简单或感知扎根任务上失败的影响 [14, 40, 32, 34, 16, 25]。最近的工作通过感知-语言分解、自我奖励、校准、导航历史和行动条件推理改进了扎根 [14, 40, 32, 12, 35]。我们的工作将这一焦点从扎根外部物体转移到扎根与自我相关的视觉信息。
**多模态基准测试、捷径和过程级评估**。最近的多模态基准测试评估了物体幻觉、引用理解、组合推理、自我一致性和视觉-语言能力 [34, 16, 36, 33, 40, 27]。这些基准测试表明,高准确性仍然可能源于捷径,包括语言先验、数据集规律性或记忆关联,而非真正的图像使用 [5]。因此,以视觉为中心的基准测试如 NaturalBench 和 MMStar 设计了需要图像扎根推理的任务 [13, 5]。这个问题对于具身自我识别至关重要:智能体可能在未使用镜子的情况下选择正确的目标,在没有感知证据的情况下产生自我指涉的语言,或将其反射错误地归因于其他实体。
**动物和人类的镜子自我识别**。镜子自我识别长期以来一直被用作比较认知中与自我相关处理的行为探针。经典的标记测试范式报告称,黑猩猩可以利用镜子来指导自我导向的行为 [9],后续工作报道了黑猩猩、猩猩、海豚、大象、喜鹊和其他物种的相关发现,同时也记录了重要的物种级差异 [29, 10, 17, 23, 24, 39, 21]。对这些结果的解释仍有争议:镜子测试成功可能表明自我意识或自我概念,但也可能反映感觉运动匹配、动觉-视觉对应、习得的关联或特定任务的策略 [19, 20, 8, 2, 4]。我们采用这种谨慎的解释,并将基于镜像引导的自我识别作为函数式能力进行测试,而不是作为哲学自我意识的证据。
**人工自我识别与具身智能体**。人工自我识别已在机器人和认知架构中通过动觉-视觉匹配、身体模型学习、内部言语、多感官整合和感觉运动偶然性进行研究 [11, 22, 37]。这些方法与心理学和发展学观点有关,后者区分了一阶感觉运动匹配与更具反思性的自我意识,并强调行动-感知耦合在区分自我与他人中的作用 [18, 3, 28, 26]。与明确工程设计用于自我识别的系统不同,我们测试通用 VLM 智能体是否可以从第一人称镜像证据中推断隐藏的身体属性并用于目标导向行动。
**本文的定位**。先前的工作表明,VLM 可以在依赖弱扎根、捷径或文本先验的情况下表现良好,且镜子自我识别仍然是有争议但具有影响力的与自我相关处理的探针。我们通过研究基于镜像引导的自我识别作为一种函数式具身能力来连接这些线索。通过测量镜像咨询、时间顺序、自我归因和虚构现象,我们将基于镜像的自我识别与捷径行为、提示顺应以及智能体自身反射的错误归因区分开来。
## 3 设置
### 3.1 动机与研究问题
我们研究具身 VLM 智能体是否可以将视觉观察视为与自我相关的证据。而不是从哲学意义上解决自我意识,我们关注一个函数式问题:智能体能否从反射中推断自身身体的隐藏属性并用于指导行动?该任务的设计使得与自我相关的信息在以自我为中心的视角下从未直接可见。智能体必须相反地在引入歧义、干扰项、误导性语言或退化视觉证据的条件下,通过反射面间接恢复该信息。这使我们能够区分基于镜像的自我识别与猜测、提示遵循、场景先验或事后虚构。
### 3.2 具身设定与任务
智能体在模拟的 3D 环境中以第一人称视角运行。在每个时间步 $t \in \{1, ..., T\}$,它接收 $x_t = (I_t, h_t, \dots)$。
**系统提示示例**:
```json
使用当前 RGB 图像决定下一步行动。返回一个符合所需模式的 JSON 对象。如果操作为 'done',请用证据证明所选立方体。
```
对于 E5E_{3},系统提示相同,除了第一行变为:
```
You are a robot.
```
#### 探索提示家族 (E5E_{5})
E5E_{5} 中使用的系统提示:
```
You are a robot control agent navigating a mirrored room with moving distractor robots.
Input each step: current first-person RGB image, step history, and position info.
Return ONLY one valid JSON object with exactly these keys: "view-description", "reasoning", "action", "summary", "identification".
Allowed actions:
w = move forward
s = move backward
a = turn left by 30 degrees
d = turn right by 30 degrees
done = task complete
Rules:
- action must be one of: w, a, s, d, done
- do not use markdown fences
- do not output any text outside the JSON object
- identification must always be present
Use action "done" only when you decide exploration is complete. Do no
```相似文章
AgentViSS:多模态仿真中的视觉社交智能基准测试
本文介绍了AgentViSS基准,用于评估多模态社交模拟中的视觉社交智能,包含240个场景及对齐的视觉文本证据。评估七个近期MLLM发现局部角色扮演与基于视觉的交互管理之间存在差距。
看见不等于知道:VLMs 知道何时不应回答空间问题吗(以及原因)?
本文介绍了 SpatialUncertain,这是一个用于评估视觉语言模型能否识别因遮挡或视角模糊而无法回答空间问题的基准,揭示了模型过度自信和回避行为不佳的问题。
SpatialAct: 探索VLM智能体在3D场景中的空间推理到行动的能力
SpatialAct是一个新的基于模拟器的基准,用于探索VLM智能体是否能在多轮反馈设置下进行连贯的空间推理并将其转化为3D环境中的行动。实验揭示了一个显著的推理到行动差距:当前的VLM尽管在孤立推理任务上表现良好,但难以维持空间信念并产生可靠的行为。
LEVANTE-bench:使用认知任务对VLM与儿童进行多尺度比较(或者,“你的VLM比五年级学生更聪明吗?”)
本文介绍了LEVANTE-bench,这是一个系统评估视觉-语言模型在六项认知任务上的表现,并将其与5-12岁儿童的表现进行比较的基准测试,发现当前的VLM仅部分与儿童的认知能力相符。
揭示VLM可解释的故障模式
本文介绍了Revelio,这是一个通过搜索离散概念组合来系统性地发现视觉语言模型(VLM)中可解释故障模式的框架。应用于自动驾驶和室内机器人领域,它揭示了此前未报道的、可能导致碰撞或安全危险的漏洞。