通过物理交互涌现的世界模型语义表征,无需语言监督
摘要
本文表明,通过随机物理探索训练世界模型,能够在不依赖任何语言监督的情况下,使潜在表征编码出空间语义结构(方向和位置),突显物理几何作为组织原则。
arXiv:2605.28865v1 公告类型: 新
摘要:世界模型通过物理探索学习到了什么,而没有任何语言监督?我们认为答案由一个单一原则组织:物理世界的几何结构。通过在随机具身探索上训练基于VAE的世界模型,我们发现其潜在空间发展出反映物理几何的空间语义结构——方向准确率0.677±0.029对比随机初始化编码器的0.547,位置RSA 0.192±0.047对比随机编码器的0.029(6.6倍提升),表明训练诱导了超越CNN归纳偏置的真正结构组织。在20个时间检查点上,预测性能和语义对齐共同提升(Spearman r=-0.61, p=0.004),与共享驱动解释一致。我们通过双重敲除来确认这一点:标准KL正则化(beta=0.1)迫使编码器远离几何结构,并且预测性能和语义对齐同时在第50,000步崩溃到接近随机水平——正如共享驱动解释所预测的那样。将beta降至0.001可恢复对几何的访问并同时恢复两种能力。这些发现确立了物理世界几何作为世界模型表征的组织原则,对设计语义具身智能体具有直接启示。
查看缓存全文
缓存时间: 2026/05/29 09:11
# 通过物理交互而非语言监督涌现的世界模型语义表征
来源:https://arxiv.org/html/2605.28865
(2026年5月)
###### 摘要
一个世界模型在没有语言监督的情况下,仅通过物理探索能学到什么?我们认为答案由单一原则组织:**物理世界的几何结构**。在随机具身探索数据上训练基于VAE的世界模型,我们发现其潜在空间发展出**空间**语义结构,能够镜像物理几何——方向准确率0.677±0.029对比随机编码器的0.547,位置RSA得分0.192±0.047对比随机编码器的0.029(提升6.6倍),表明训练引发了超越CNN归纳偏置的真正**结构组织**。在20个时间检查点上,预测性能与语义对齐共同提升(Spearman r=-0.61, p=0.004),这与共享驱动解释一致:时间趋势本身反映了渐进式的几何学习,这是两种改进的共同原因。我们通过**双重敲除**验证了共享驱动解释:标准KL正则化(β=0.1)迫使编码器偏离几何结构,预测性能和语义对齐在50,000步时同时崩溃至接近随机水平——完全符合共享驱动解释的预测。将β降至0.001可恢复几何访问,并同时恢复两种能力。这些发现确立物理世界几何作为世界模型表征的组织原则,对语义具身智能体的设计具有直接影响。
## 1. 引言
**符号接地问题**[12](https://arxiv.org/html/2605.28865#bib.bib4)探讨符号如何与其描述的物理世界产生联系。大语言模型回避了这一问题:它们的表征由共现统计定义,而非与世界的感觉运动接触。模型从文本中学得的“上方”编码,无法保证与通过导航物理环境构建的空间表征存在结构对齐[5](https://arxiv.org/html/2605.28865#bib.bib14]。我们认为这是分布语义与接地语义之间的结构性不兼容——无法仅靠规模解决。
发展心理学提出另一种可能:可直接通过物理交互(无需任何语言输入)涌现出与语言兼容的表征[16](https://arxiv.org/html/2605.28865#bib.bib16), [17](https://arxiv.org/html/2605.28865#bib.bib7]:先有接地,语言再映射其上。相关的计算证据仍然稀少。
本文对以下问题进行了实证研究:一个仅通过物理随机探索训练(无任何语言监督)的世界模型,是否会自发发展出编码**空间**语义结构(方向和位置)的潜在表征——这是具身语义最基本的形式,也是人类语言习得中最早涌现的[16](https://arxiv.org/html/2605.28865#bib.bib16]。
我们的主要贡献如下:
- **物理几何组织世界模型表征。** 我们展示了RSA得分(衡量独立于视觉辨别的结构对齐)相比随机初始化编码器提升6.6倍(0.192±0.047 vs. 0.029),证明物理训练特别地在潜在空间中诱导了几何相似性结构。线性探针进一步证实方向编码(0.677±0.029)和空间编码(R²: 0.19→0.40)均优于随机策略和随机编码器基线。
- **预测与语义共同提升,与共享几何驱动一致。** 在20个时间检查点上,预测损失和语义对齐共同提升(r=-0.61),两者均由编码器对物理几何模型的改进所组织。去除时间趋势后的偏相关为r=-0.25(p=0.28);双重敲除提供了共享驱动的主要机制证据。
- **双重敲除确认共享驱动机制。** 标准KL正则化(β=0.1)迫使编码器偏离几何结构;作为直接结果,**两者**——预测性能和语义对齐——在50,000步时同时崩溃至接近随机水平。这种同时性的双重失败正是共享驱动解释所预测的——并且不能通过将预测和语义视为独立能力来解释。将β降至0.001可同时恢复两者。
- **空间结构先于方向结构。** 位置RSA(峰值0.23)在整个训练过程中显著超过方向RSA(0.05–0.07),表明空间几何是物理交互构建语义表征的主要基质——这与早期空间概念形成的发展心理学描述一致。
## 2. 相关工作
#### 世界模型。
世界模型学习环境动力学的紧凑表征,以实现规划和预测[11](https://arxiv.org/html/2605.28865#bib.bib3]。DreamerV3[11](https://arxiv.org/html/2605.28865#bib.bib3]展示了基于RSSM的世界模型可以通过完全在想象中训练策略来掌握多样领域。JEPA[1](https://arxiv.org/html/2605.28865#bib.bib2]和V-JEPA在潜在空间而非像素空间进行预测,避免了重建瓶颈。最近一篇关于世界行动模型[18](https://arxiv.org/html/2605.28865#bib.bib21]的综述将JEPA风格的潜在预测认定为将行动生成接地于物理状态表征的关键方向——我们的工作研究这种接地的表征基础。我们工作的一个关键区别在于分析世界模型潜在空间的**语义内容**而非下游任务性能。最近的JEPA分析表明预测模型学习语义表征,但未区分架构归纳偏置与训练诱导结构,也未研究预测质量与语义对齐之间的因果关系。
#### 表征崩溃及其预防。
VAE中的后验崩溃(编码器忽略输入并输出先验)已由Lucas等人[14](https://arxiv.org/html/2605.28865#bib.bib5]分析。Barlow Twins[19](https://arxiv.org/html/2605.28865#bib.bib9]减少特征冗余。BYOL[10](https://arxiv.org/html/2605.28865#bib.bib10]使用EMA目标网络实现稳定学习。VICReg[3](https://arxiv.org/html/2605.28865#bib.bib1]显式强制每个维度的方差,通过标准差上的铰链损失直接惩罚崩溃。LeJEPA[2](https://arxiv.org/html/2605.28865#bib.bib20]理论上证明各向同性高斯是唯一的最优嵌入分布,可最小化下游任务风险,并通过分布匹配推导出原理性无崩溃JEPA——确立了VICReg是此最优目标的一个特殊(且理论上不足的)退化情况。我们的实验在VAE设置中提供了互补的实证证据:过度的KL正则化(β=0.1)将后验推向高斯先验,但矫枉过正导致退化的点质量,破坏了空间语义编码所需的几何结构——这是适当正则化(β=0.001)可以预防的失效模式。同时且独立地,Garrido等人[9](https://arxiv.org/html/2605.28865#bib.bib19]报告了潜在**行动**表征中的相同崩溃现象:过度正则化(β太大)导致行动潜在变量退化为噪声,失去所有预测效用——证实了KL过度正则化是对有意义物理世界模型学习的普遍威胁,涉及状态表征和行动表征两个层面。
#### 符号接地与具身语言涌现。
符号接地问题[12](https://arxiv.org/html/2605.28865#bib.bib4]探讨符号如何通过与物理经验的联系获得意义。Barsalou的感知符号系统理论认为概念知识植根于感觉运动模拟[4](https://arxiv.org/html/2605.28865#bib.bib15]。发展心理学家证实儿童早期词汇主要由通过感觉运动交互获得的物理可经验概念主导[16](https://arxiv.org/html/2605.28865#bib.bib16), [17](https://arxiv.org/html/2605.28865#bib.bib7]。涌现通信工作[13](https://arxiv.org/html/2605.28865#bib.bib13]研究在显式通信压力下智能体之间的离散协议。我们的工作探针的是**没有任何通信目标**——纯粹来自物理预测的归纳压力——下涌现的语义结构。
## 3. 方法
### 3.1 环境
我们使用**MiniGrid-Empty-8x8-v0**[6](https://arxiv.org/html/2605.28865#bib.bib6],一个19×19的网格世界(包含墙壁),其中有一个单一具身智能体。智能体接收7×7×3的局部观察(自我中心视野),并有7个离散动作(左转/右转、前进、开关、拾取、丢弃、完成)。不使用奖励信号;智能体遵循纯随机策略,确保最大状态空间覆盖而无任务特定偏差。
### 3.2 世界模型架构
我们采用基于VAE的世界模型,包括:
- **图像编码器** \(q\_\phi(z|o)\):两个卷积层(3→16→32通道,3×3卷积核),后接两个线性层,产生32维高斯潜在变量z的均值μ和标准差σ。
- **转移模型** \(p\_\psi(z_{t+1}|z_t, a_t)\):两层MLP(隐藏维度128),根据当前潜在状态和独热动作向量预测下一潜在状态。
训练目标:
\[
\mathcal{L} = \mathbb{E}_{z_t \sim q_\phi(z_t|o_t)} \left[ \underbrace{\|\hat{z}_{t+1} - z_{t+1}\|_2^2}_{\text{transition MSE}} + \beta \underbrace{D_{\mathrm{KL}}(q_\phi(z_t|o_t) \| \mathcal{N}(0,I))}_{\text{KL regularization}} \right] \tag{1}
\]
其中 \(\hat{z}_{t+1} = \psi(z_t, a_t)\) 是预测的下一潜在状态,β是KL权重。对于所有下游分析,我们使用确定性均值μ作为潜在表征。
### 3.3 训练协议
模型使用Adam优化器(lr=3×10⁻⁴)在CPU上训练100,000个环境步骤。检查点保存在步骤{1,000, 5,000, 10,000, 25,000, 50,000, 100,000}以跟踪表征的时间演化。我们比较两种KL权重配置:β=0.1(基线,表现出后验崩溃)和β=0.001(提议配置,防止崩溃)。
### 3.4 评估指标
#### 线性探针 (H1)。
对于每个检查点,我们通过随机探索(200个episode)收集47,000–48,000个(μ, state)对。在80%的数据上训练逻辑回归,报告智能体方向的分类准确率(4类;随机基线:25%;随机编码器基线:0.547±0.029)以及x/y位置回归的R²(Ridge回归;随机基线:≈0)。
#### 表征相似性分析 / RSA (H2)。
我们采样500个状态并计算:(1) 其潜在向量的余弦相似矩阵 \(\mathbf{S}_z \in \mathbb{R}^{500 \times 500}\);(2) 方向的语义相似矩阵 \(\mathbf{S}_{\text{dir}} = \mathbf{1}[d_i = d_j]\);(3) 位置的语义相似矩阵 \(\mathbf{S}_{\text{pos}} = 1/(1 + |x_i - x_j| + |y_i - y_j|)\)。RSA得分是 \(\mathbf{S}_z\) 与每个语义矩阵上三角的Spearman相关系数。正RSA得分表明潜在空间镜像语义相似性结构。
#### 崩溃诊断。
我们监控各检查点潜在向量之间的平均成对欧氏距离。距离接近零表示后验崩溃:编码器对任何输入输出相同表征。
#### 可复现性。
## 4. 实验
### 4.1 通过物理交互涌现语义结构 (H1)
表1 (https://arxiv.org/html/2605.28865#S4.T1) 报告了提议配置(β=0.001)各检查点的线性探针结果。
**表1:** 代表性种子(β=0.001)的逐检查点线性探针指标。100,000步时多种子结果:方向准确率0.677±0.029,Y位置R² 0.333±0.036(n=3种子)。所有指标持续高于两个随机基线。
方向准确率在25,000步达到69%,并在100,000步稳定在0.677±0.029,远高于随机策略(25%)和随机编码器(0.547)基线。相比随机编码器的改进在种子间统计显著(t=3.2, p<0.01),确认了H1。Y位置R²从训练初期的0.186单调增至0.401(H3),表明空间编码随累积物理交互而改善。
### 4.2 RSA:潜在空间镜像语义相似结构 (H2)
表2 (https://arxiv.org/html/2605.28865#S4.T2) 显示了各检查点的RSA得分。RSA基于 \(\binom{500}{2} = 124,750\) 个状态对计算;在此样本量下,所有报告值高度显著(最小的观测r=0.035对应的p<10⁻³⁰)。方向和位置的RSA在整个训练过程中持续为正,确认潜在空间在结构上镜像语义相似性(H2)。位置RSA在10,000步达到峰值0.229后稳定,方向RSA可靠为正但幅度较小——这是合理的,因为二值(4类)方向相似矩阵产生的分级结构少于连续位置距离度量。尽管方向RSA值(0.035–0.074)绝对幅度较小,但在所有检查点和所有种子间一致,在每一个观察点均显著高于随机编码器基线,并重现了发展心理学空间概念形成预测的层级(位置RSA >> 方向RSA)。效应大小与统计显著性应区分:位置RSA相对于随机编码器的一致6.6倍改进是结构组织的主要指标。
**表2:** 潜在余弦相似矩阵与语义相似矩阵之间的RSA得分(Spearman r)。随机基线:≈0。
### 4.3 H6:训练中预测与语义共同提升
利用20个时间检查点(每5,000步),预测损失与方向准确率在训练中共同提升:Spearman r=-0.61, p=0.004。在线性去除训练步数趋势后的偏相关为r=-0.25 (p=0.28)。在共享驱动解释下,相似文章
物理可行的世界模型:为查询条件化具身智能辩护
本文论证了具身AI的世界模型必须是物理可行的且查询条件化的,重点在于为每个干预查询识别最简单的物理抽象,而不是仅仅预测观察结果。
可操作的世界表示
WorldString是一种神经架构,能够从点云或RGB-D视频流中建模物体状态流形,作为物理世界模型的基础组件,其可微结构便于与策略学习集成。
为何通用人工智能需要世界模型:大型语言模型的不足与世界模型的潜在优势
本文认为,大型语言模型在因果推理和长时域规划方面存在困难,其原因在于序列预测与对潜在环境动态的推理之间存在目标层面的不匹配,并引入了潜在动态推断视角以及Flux环境来研究这些局限性。
@artemZholus:谢谢!在第二篇论文(https://arxiv.org/abs/2605.06388)中,我们采用了您(和RAE)的方案,效果不错。
本文系统地比较了基于重建和基于语义的潜在空间在机器人行动条件潜在扩散世界模型中的应用。研究发现,像V-JEPA 2.1这样的语义编码器在策略相关指标上通常优于重建编码器,从而主张将语义潜在空间作为机器人世界模型的更强基础。
为什么远处看起来在上方:探究视觉-语言模型中的空间表征
探究视觉-语言模型中的空间表征,揭示了一个普遍存在的偏差:模型将图像中的垂直位置与距离混为一谈,并引入了 SpatialTunnel 合成基准来暴露这一捷径;研究发现,更好的解耦空间表征能提升模型的鲁棒性。