标签
本研究引入了一个 3D 基准,用于评估视觉语言模型(VLM)智能体是否能够实现镜子自我识别,这是高阶认知能力的一种替代指标。研究发现,虽然更强的 VLM 可以利用反射证据指导行动,但较弱的模型往往无法提取与自身相关的信息或错误归因反射影像,这突显了语言顺从与基于现实的自我识别之间的区别。