RepWAM:基于表征视觉-动作分词器的世界动作建模
摘要
RepWAM 提出了一种使用表征视觉-动作分词器的世界动作建模方法,旨在学习用于规划与控制的统一视觉和动作表征。
查看缓存全文
缓存时间: 2026/06/12 02:52
论文页面 - RepWAM:基于表征视觉-动作分词器的世界动作建模
来源:https://huggingface.co/papers/2606.13674 在您的代理中获取此论文:
hf papers read 2606\.13674
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有链接此论文的模型
在模型README.md中引用arxiv.org/abs/2606.13674以从此页面链接它。
引用此论文的数据集0
没有链接此论文的数据集
在数据集README.md中引用arxiv.org/abs/2606.13674以从此页面链接它。
引用此论文的Spaces0
没有链接此论文的Space
在Space README.md中引用arxiv.org/abs/2606.13674以从此页面链接它。
包含此论文的集合0
没有包含此论文的集合
将此论文添加到集合(https://huggingface.co/new-collection)以从此页面链接它。
相似文章
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
Light-WAM:基于状态融合动作解码的高效世界动作模型
Light-WAM是一种轻量级世界动作模型,用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督,在保持低推理延迟的同时实现了高性能。
Discrete-WAM:面向世界-策略学习的统一离散视觉-动作令牌编辑
介绍了Discrete-WAM,一种统一的离散潜在视觉-动作世界策略,通过对齐的离散令牌和共享的离散扩散框架,在自动驾驶中实现组合因果推理和反事实推理。
通过残差潜在动作学习基于视觉特征的世界模型
本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。
WALL-WM:在事件节点上雕琢世界动作建模
WALL-WM 通过使用语义事件作为学习单元而非固定动作块,推进了视频-动作学习,实现了更灵活和可扩展的视觉-语言-动作训练与推理。