RepWAM：基于表征视觉-动作分词器的世界动作建模

Hugging Face Daily Papers 2026/06/11 00:00 论文

摘要

RepWAM 提出了一种使用表征视觉-动作分词器的世界动作建模方法，旨在学习用于规划与控制的统一视觉和动作表征。

本文介绍了 RepWAM，一种基于表征视觉-动作分词器的以表征为中心的世界动作模型（WAM）。现有的 WAM 通常继承自预训练视频生成模型的面向重建的视频分词器。尽管这些分词器保留了视觉保真度，但仅靠像素重建在连接未来预测与机器人控制的指令跟随动力学学习方面提供的指导有限。为解决这一问题，我们探索了一种语义视觉-动作潜在空间，用于以表征为中心的世界动作建模。具体来说，我们训练了一个表征视觉-动作分词器，将视觉输入映射为对齐的视觉和潜在动作令牌。然后，我们预训练 WAM，使其在语言指令下联合建模未来的视觉状态及连接这些状态的潜在动作，随后适应真实机器人轨迹以实现闭环操作。在真实世界操作任务和模拟基准上的实验表明，RepWAM 在各种操作场景中均表现出色，而消融实验则凸显了语义视觉-动作分词化相对于面向重建替代方案的价值。这些结果确立了语义视觉-动作分词化作为世界动作模型有前景的基础，并向通用机器人策略迈进一步。代码和权重将在 https://github.com/wdrink/RepWAM 上提供。

查看原文

查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - RepWAM：基于表征视觉-动作分词器的世界动作建模

来源：https://huggingface.co/papers/2606.13674 在您的代理中获取此论文：

hf papers read 2606\.13674

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型README.md中引用arxiv.org/abs/2606.13674以从此页面链接它。

引用此论文的数据集0

没有链接此论文的数据集

在数据集README.md中引用arxiv.org/abs/2606.13674以从此页面链接它。

引用此论文的Spaces0

没有链接此论文的Space

在Space README.md中引用arxiv.org/abs/2606.13674以从此页面链接它。

包含此论文的集合0

没有包含此论文的集合

将此论文添加到集合（https://huggingface.co/new-collection）以从此页面链接它。

RepWAM：基于表征视觉-动作分词器的世界动作建模

论文页面 - RepWAM：基于表征视觉-动作分词器的世界动作建模

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的集合0

相似文章

世界行动模型：具身智能的下一个前沿

Light-WAM：基于状态融合动作解码的高效世界动作模型

Discrete-WAM：面向世界-策略学习的统一离散视觉-动作令牌编辑

通过残差潜在动作学习基于视觉特征的世界模型

WALL-WM：在事件节点上雕琢世界动作建模

提交意见反馈