@artemZholus:谢谢!在第二篇论文(https://arxiv.org/abs/2605.06388)中,我们采用了您(和RAE)的方案,效果不错。

X AI KOLs Following 论文

摘要

本文系统地比较了基于重建和基于语义的潜在空间在机器人行动条件潜在扩散世界模型中的应用。研究发现,像V-JEPA 2.1这样的语义编码器在策略相关指标上通常优于重建编码器,从而主张将语义潜在空间作为机器人世界模型的更强基础。

@_amirbar 谢谢!在第二篇论文(https://t.co/ivCcmjR4Mo)中,我们采用了您(和RAE)的方案,效果不错。
查看原文
查看缓存全文

缓存时间: 2026/05/27 03:00

@_amirbar 感谢!在第二篇论文(https://t.co/ivCcmjR4Mo)中,我们使用了你的(以及 RAE 的)方法,它确实有效。


重建还是语义?什么让潜在空间对机器人世界模型有用

来源:https://arxiv.org/html/2605.06388 Nilaksh*1,2,3{}^{\textbf{*}1,2,3}Saurav Jha*1,2,3{}^{\textbf{*}1,2,3}Artem Zholus*1,2,3{}^{\textbf{*}1,2,3}Sarath Chandar1,2,3,4 1Chandar Research Lab2Mila – Quebec AI Institute3Polytechnique Montréal4Canada CIFAR AI Chair ∗同等贡献 通讯作者:[nilaksh.nilaksh, saurav.jha]@mila.quebec [无标题图片]https://hskalin.github.io/semantic-wm/ [无标题图片]https://huggingface.co/Nilaksh404/semantic-wm

摘要

基于世界模型的策略评估是一种实用的代理方法,通过在动作条件下的视频扩散模型中展开候选动作来测试真实机器人控制。随着这些模型越来越多地采用潜在扩散建模(LDM),选择正确的潜在空间变得至关重要。虽然现状是使用主要针对像素重建训练的自编码潜在空间(如 VAE),但最近的工作表明,使用具有表示对齐语义潜在空间的预训练编码器是有益的。我们系统评估了这些用于动作条件 LDM 的潜在空间,通过比较六种重建和语义编码器,在固定协议下使用 BridgeV2 数据集训练世界模型变体,并展示了在有无维度压缩的高维表示空间中进行有效世界模型训练的能力。然后,我们提出了三个评估机器人世界模型性能的轴:视觉保真度、规划和下游策略性能,以及潜在表示质量。我们的结果表明,仅凭视觉保真度不足以选择世界模型。虽然重建编码器(如 VAE 和 Cosmos)在像素级得分上表现强劲,但语义编码器(如 V-JEPA 2.1(策略上总体最强)、Web-DINO 和 SigLIP 2)在所有模型规模下,在其他两个轴上通常表现出色。我们的研究主张将语义潜在空间作为与策略相关的机器人扩散世界模型的更强基础。

1 引言

动作条件下的视频世界模型正成为生成式建模与机器人学之间的实用接口[20 (https://arxiv.org/html/2605.06388#bib.bib4),70 (https://arxiv.org/html/2605.06388#bib.bib16),10 (https://arxiv.org/html/2605.06388#bib.bib31)]。给定观察和动作历史,它们预测未来观察,并在手工构建模拟器困难时充当机器人-环境交互的学习代理[58 (https://arxiv.org/html/2605.06388#bib.bib32),15 (https://arxiv.org/html/2605.06388#bib.bib33)]。最近的工作表明,这类模型可以支持与真实世界结果良好相关的策略评估[62 (https://arxiv.org/html/2605.06388#bib.bib36)]和策略改进[82 (https://arxiv.org/html/2605.06388#bib.bib10),75 (https://arxiv.org/html/2605.06388#bib.bib9),52 (https://arxiv.org/html/2605.06388#bib.bib15)]。然而,当前的评估很少说明哪种表示能使世界模型忠实于机器人动力学。

Refer to captionRefer to captionRefer to caption空间时间×\timesBlocksDiT潜在扩散动作a0:t+(可选)文本\text{动作}\ a_{0:t}+\text{{\color[rgb]{0.12109375,0.3046875,0.47265625}\definecolor[named]{pgfstrokecolor}{rgb}{0.12109375,0.3046875,0.47265625}{(可选)文本}}}宽头⋯\cdot历史编码器fφ冻结\begin{array}[]{l}\text{{编码器}}\ f_{\phi}\\ \ \ \ \text{冻结}\end{array}适配器D→d\begin{array}[]{l}\text{适配器}\\ D\rightarrow d\end{array}解码器预测的Φ∈{\Phi\in\{\,候选潜在表示},\}VAESD3 VAEnativeD=16D\!=\!16VA-VAEVA-VAEnativeD=32D\!=\!32CosmosCosmos CI 编码器nativeD=16D\!=\!16V-JEPA 2V-JEPA 2.1 ViT-LnativeD=1024D\!=\!1024++adp.d=96d{=}96Web-SSLWeb-DINO ViT-LnativeD=1024D\!=\!1024++adp.d=96d{=}96SigLIP 2SigLIP 2 ViT-LnativeD=1152D\!=\!1152++adp.d=96d{=}96VAE-like(冻结编码器,无适配器)表示编码器(冻结++可选学习适配器)

图 1:哪种潜在空间能构成更好的机器人世界模型?对于潜在扩散模型,我们固定了扩散变换器(DiT)转移模型、动作条件和训练数据。我们仅改变由编码器 fφf_{\phi} 定义的潜在接口:编码器、可选的压缩适配器以及相关的解码器路径。这隔离了重建对齐表示和语义表示如何影响动作忠实动力学、生成的展开以及机器人控制的下游策略性能。我们在底部面板中展示了比较的编码器族。这个问题越来越重要,因为许多视频世界模型都是潜在扩散模型(LDM)[64 (https://arxiv.org/html/2605.06388#bib.bib1),48 (https://arxiv.org/html/2605.06388#bib.bib67)],它们在编码器定义的潜在空间中学习动力学。标准选择是重建对齐的自编码器,例如 VAE[29 (https://arxiv.org/html/2605.06388#bib.bib83)]或最近的变体[16 (https://arxiv.org/html/2605.06388#bib.bib68),71 (https://arxiv.org/html/2605.06388#bib.bib86),1 (https://arxiv.org/html/2605.06388#bib.bib84)],其潜在表示针对像素保真度和稳定解码进行了优化。但机器人世界模型不仅仅是视频生成器,规划和评估需要保留物理、空间和任务动力学的预测。这激发了使用自监督和视觉-语言编码器的语义空间作为机器人世界建模的潜在表示[11 (https://arxiv.org/html/2605.06388#bib.bib88),41 (https://arxiv.org/html/2605.06388#bib.bib90),23 (https://arxiv.org/html/2605.06388#bib.bib89),22 (https://arxiv.org/html/2605.06388#bib.bib74),4 (https://arxiv.org/html/2605.06388#bib.bib61),47 (https://arxiv.org/html/2605.06388#bib.bib87),61 (https://arxiv.org/html/2605.06388#bib.bib91)]。这些空间比像素训练的自编码器更直接地暴露对象布局和任务结构[53 (https://arxiv.org/html/2605.06388#bib.bib53)]。然而,由于高维度会导致生成离流形潜在表示且对象结构较差,它们难以用于扩散[78 (https://arxiv.org/html/2605.06388#bib.bib85)]。RAE[79 (https://arxiv.org/html/2605.06388#bib.bib82)]通过维度相关的噪声调度偏移和宽 DDT 头[67 (https://arxiv.org/html/2605.06388#bib.bib14)]使其更易处理,而 S-VAE[78 (https://arxiv.org/html/2605.06388#bib.bib85)]则使用自编码器作为冻结语义特征上的适配器来学习紧凑的、KL 正则化的潜在空间。

尽管如此,语义潜在表示对机器人动作条件 LDM 的影响仍然是一个未解决的问题。DINO-WM[80 (https://arxiv.org/html/2605.06388#bib.bib44)]和 V-JEPA 2-AC[4 (https://arxiv.org/html/2605.06388#bib.bib61)]表明预训练特征空间支持规划,但它们不是扩散模型:DINO-WM 是自回归特征预测世界模型,而 V-JEPA 2-AC 是 JEPA 预测器[3 (https://arxiv.org/html/2605.06388#bib.bib13)]。RAE-NWM[76 (https://arxiv.org/html/2605.06388#bib.bib80)]表明 DINOv2[41 (https://arxiv.org/html/2605.06388#bib.bib90)]空间支持基于扩散的导航世界建模。然而导航不同于接触丰富的操作,在其中夹爪运动、对象状态、几何形状和策略展开都很重要。这引出了我们的问题:潜在空间选择对基于 LDM 的机器人世界建模有什么影响?

我们通过一项控制性评估研究来回答这个问题,仅改变转移模型操作的表示空间(见图 1 (https://arxiv.org/html/2605.06388#S1.F1))。为了进行有效的语义空间 LDM 训练,我们采用了 RAE 的宽头和调度偏移方法[79 (https://arxiv.org/html/2605.06388#bib.bib82)]以及紧凑的 S-VAE 适配器[78 (https://arxiv.org/html/2605.06388#bib.bib85)],并在 Bridge V2 数据集[66 (https://arxiv.org/html/2605.06388#bib.bib77)]上使用相同的 DiT 转移模型[42 (https://arxiv.org/html/2605.06388#bib.bib21)]和动作条件方案进行训练。然后,我们提出了一个涵盖三个轴的评估套件:视觉保真度、规划和下游策略性能,以及潜在质量。我们的发现表明,语义潜在表示提高了动作可恢复性、任务成功分类、CEM 规划和策略闭环成功,而重建潜在表示主要保留了光度学优势。我们的主要贡献有三点:

    1. 我们的主要贡献是对潜在扩散世界建模的表示空间进行评估。我们通过提出的三个评估轴,进行了控制分析,研究潜在空间选择如何不仅影响视觉生成,还影响机器人任务和鲁棒性。
    1. 我们提出了一种在高维语义空间中训练扩散世界模型的有效方法,利用语义空间扩散的最新进展并将其扩展到动作条件世界建模。我们还研究了不同设计选择的影响。
    1. 我们表明,即使重建潜在表示在低级像素保真度上匹配或超过语义潜在表示,语义潜在表示在策略评估和规划方面始终更有用,这确立了最佳机器人世界模型潜在空间是保留动作相关结构的空间,而不仅仅是重建图像最好的空间。

2 问题形式化

我们考虑从部分观察中进行的多任务机器人操作。离线数据集是 D={(o0:T,a0:T−1,l,y)}\mathcal{D}=\{(o_{0:T},\,a_{0:T-1},\,\ell,\,y)\},其中 ot∈Oo_{t}\in\mathcal{O} 是 RGB 观察,at∈Rdaa_{t}\in\mathbb{R}^{d_{a}} 是连续机器人动作,l\ell 是可选的文本指令,y∈{0,1}y\in\{0,1\} 表示回合成功。任务在对象配置和指令上有所不同,但共享一个机器人具身;因此我们将数据视为来自相关部分观察马尔可夫决策过程的样本,这些过程具有共享的动力学和任务依赖的目标。由于单个观察通常不能确定在动作下的下一个观察,我们以长度为 HH 的有限视觉-动作历史为条件,并对展开视界 KK 上的动作条件预测分布进行建模:p(ot+1:t+K∣ot−H:t,at−H:t+K−1)p(o_{t+1:t+K}\mid o_{t-H:t},\,a_{t-H:t+K-1})。

Refer to caption图 2:编码器空间诱导的动作轨迹:回合展开投影到 IDM 特征与真实动作之间的前两个典型相关方向。(ρ1,ρ2)(\rho_{1},\rho_{2}) 是主导典型相关性,η\eta 总结了总的动作对齐程度。彩色曲线是回合。### 2.1 潜在空间世界模型

潜在世界模型不直接在像素空间中预测未来帧,而是在表示空间中学习预测动力学。每个模型由一个冻结编码器、一个可选的冻结适配器、一个动作条件转移模型和一个解码器组成。

编码器和适配器。

一个预训练的图像编码器将每个观察映射到空间潜在表示 zt=fφ(ot)∈RN×Dz_{t}=f_{\phi}(o_{t})\in\mathbb{R}^{N\times D},其中 N=h×wN=h\times w 是补丁数,DD 是编码器的原生通道维度。编码器是冻结的,因此 fφf_{\phi} 固定了学习动力学的表示空间。对于高维语义表示编码器,我们可选地使用一个冻结适配器 αψ\alpha_{\psi} 来获得紧凑的、适合扩散的潜在表示 z~t=αψ(zt)∈RN×d\tilde{z}_{t}=\alpha_{\psi}(z_{t})\in\mathbb{R}^{N\times d}[78 (https://arxiv.org/html/2605.06388#bib.bib85)]。对于压缩的重建对齐潜在空间,适配器是身份映射。

转移模型。

一个动作条件的 DiT[42 (https://arxiv.org/html/2605.06388#bib.bib21)] 预测未来的潜在轨迹:z~t+1:t+K∼pθ(⋅∣z~t−H:t,at−H:t+K−1)\tilde{z}_{t+1:t+K}\sim p_{\theta}(\cdot\mid\tilde{z}_{t-H:t},a_{t-H:t+K-1})。在世界模型训练期间,只有转移模型被更新;编码器、适配器和解码器保持固定。对于没有适配器的语义编码器,我们添加一个轻量级的宽 DDT 头[67 (https://arxiv.org/html/2605.06388#bib.bib14)],它增加少量参数,但解决 DiT 在高维潜在空间中的宽度瓶颈问题[79 (https://arxiv.org/html/2605.06388#bib.bib82)]。否则,变体共享相同的转移主干,仅表示和解码路径不同。表 4 (https://arxiv.org/html/2605.06388#A2.T4)(附录 B (https://arxiv.org/html/2605.06388#A2))显示,带有适配器的 DiT 骨干网没有增加参数数量或 GFLOPs。计算对等性在附录 A (https://arxiv.org/html/2605.06388#A1) 中说明。

解码器。

预测的潜在表示被映射回像素:o^t+1:t+K=Dec(z~t+1:t+K)\hat{o}_{t+1:t+K}=\mathrm{Dec}(\tilde{z}_{t+1:t+K})。解码器对于视觉展开和像素级评估是必需的,但解码后的图像质量本身并不能决定世界模型质量:一个模型可能渲染出合理的帧,但错过了动作相关的动力学,或者尽管像素光度学上有微小误差,但保留了控制相关的结构。

2.2 潜在空间在机器人学中的作用

编码器定义的潜在空间决定了转移模型 pθp_{\theta} 学习动力学的状态表示。在 LDM 中,重建对齐的潜在表示 ztpix=fφpix(ot)∈RN×Dpixz_{t}^{\mathrm{pix}}=f_{\phi}^{\textsc{pix}}(o_{t})\in\mathbb{R}^{N\times D_{\mathrm{pix}}} 被普遍使用,因为它们保留了像素级信息并提供了可靠的解码器[13 (https://arxiv.org/html/2605.06388#bib.bib52)]。然而,对于机器人世界模型,相关的状态不仅仅是图像看起来怎样,还包括它在动作下如何变化,以及这些变化是否保留了任务进展、对象状态、接触和几何形状。这创造了一个多目标问题,其中有用的潜在表示应该是动作可控的、任务信息丰富的、视觉可解码的,并且对规划或策略评估有用。

作为初步诊断,我们使用逆动力学模型(IDM)来探测编码器是否使动作相关变化在潜在空间中显式化(参见附录 D.4 (https://arxiv.org/html/2605.06388#A4.SS4) 了解详情)。图 2 (https://arxiv.org/html/2605.06388#S2.F2) 显示,不同的编码器会引发明显不同的动作对齐轨迹几何形状,这表明编码器选择改变了转移模型容易学习的机器人动力学方面。这促使我们将潜在空间 fφf_{\phi} 视为实验变量,并评估其超出视觉保真度的影响,涵盖可控性、任务语义和策略性能等轴。

因此,我们将重建对齐的潜在表示与来自预训练视觉基础模型[41 (https://arxiv.org/html/2605.06388#bib.bib90),4 (https://arxiv.org/html/2605.06388#bib.bib61),61 (https://arxiv.org/html/2605.06388#bib.bib91)]的语义潜在表示进行比较,表示为 ztrep=fφrep(ot)∈RN×Drepz_{t}^{\mathrm{rep}}=f_{\phi}^{\textsc{rep}}(o_{t})\in\mathbb{R}^{N\times D_{\mathrm{rep}}}\。由于 DrepD_{\mathrm{rep}} 通常很大,我们评估了原生特征和紧凑适配器潜在表示 z~t=αψ(ztrep)\tilde{z}_{t}=\alpha_{\psi}(z_{t}^{\ma

相似文章

通过残差潜在动作学习基于视觉特征的世界模型

Hugging Face Daily Papers

本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。

AeroJEPA:学习用于可扩展3D气动场建模的语义潜在表示

arXiv cs.LG

本文介绍了AeroJEPA,一种用于可扩展3D气动场建模的联合嵌入预测架构。它通过预测流场的语义潜在表示,解决了当前代理模型在可扩展性和设计实用性方面的局限性,从而实现了高效的高保真分析和设计优化。