RepWAM:基于表征视觉-动作分词器的世界动作建模

Hugging Face Daily Papers 论文

摘要

RepWAM 提出了一种使用表征视觉-动作分词器的世界动作建模方法,旨在学习用于规划与控制的统一视觉和动作表征。

本文介绍了 RepWAM,一种基于表征视觉-动作分词器的以表征为中心的世界动作模型(WAM)。现有的 WAM 通常继承自预训练视频生成模型的面向重建的视频分词器。尽管这些分词器保留了视觉保真度,但仅靠像素重建在连接未来预测与机器人控制的指令跟随动力学学习方面提供的指导有限。为解决这一问题,我们探索了一种语义视觉-动作潜在空间,用于以表征为中心的世界动作建模。具体来说,我们训练了一个表征视觉-动作分词器,将视觉输入映射为对齐的视觉和潜在动作令牌。然后,我们预训练 WAM,使其在语言指令下联合建模未来的视觉状态及连接这些状态的潜在动作,随后适应真实机器人轨迹以实现闭环操作。在真实世界操作任务和模拟基准上的实验表明,RepWAM 在各种操作场景中均表现出色,而消融实验则凸显了语义视觉-动作分词化相对于面向重建替代方案的价值。这些结果确立了语义视觉-动作分词化作为世界动作模型有前景的基础,并向通用机器人策略迈进一步。代码和权重将在 https://github.com/wdrink/RepWAM 上提供。
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - RepWAM:基于表征视觉-动作分词器的世界动作建模

来源:https://huggingface.co/papers/2606.13674 在您的代理中获取此论文:

hf papers read 2606\.13674

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有链接此论文的模型

在模型README.md中引用arxiv.org/abs/2606.13674以从此页面链接它。

引用此论文的数据集0

没有链接此论文的数据集

在数据集README.md中引用arxiv.org/abs/2606.13674以从此页面链接它。

引用此论文的Spaces0

没有链接此论文的Space

在Space README.md中引用arxiv.org/abs/2606.13674以从此页面链接它。

包含此论文的集合0

没有包含此论文的集合

将此论文添加到集合(https://huggingface.co/new-collection)以从此页面链接它。

相似文章

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。

通过残差潜在动作学习基于视觉特征的世界模型

Hugging Face Daily Papers

本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。