τ_0-WM: 用于机器人操作的统一视频-动作世界模型

Hugging Face Daily Papers 论文

摘要

τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。

机器人操作需要能够生成可执行动作的模型,同时在物理执行之前预测和评估其未来后果。我们提出τ_0-World Model(τ_0-WM),这是一个统一的视频-动作世界模型,在一个未来预测框架内集成了策略学习、视频预测和动作评估。基于共享的视频扩散主干,τ_0-WM提供了两个互补接口。首先,一个视频动作模型从多视角观察、语言指令和机器人状态中联合预测未来的视觉潜在变量和连续动作片段。其次,一个基于动作条件的视频模拟器将候选动作片段展开为多视角未来,并预测密集的任务进度分数。该模型在大约27,300小时的真实机器人遥操作、UMI风格交互、第一人称人类视频以及展开或失败轨迹上进行训练,使用模态特定的监督掩码。在推理时,τ_0-WM利用测试时计算来采样动作候选,通过重新去噪一致性对其进行排名,并对低质量候选调用基于模拟器的修正。在具有挑战性的长周期和细粒度机器人操作任务上,τ_0-WM显示出优于其他相关基准的性能。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:34

论文页面 - τ₀-WM: 一种面向机器人操作的统一视频-动作世界模型

来源:https://huggingface.co/papers/2606.01027 作者:

摘要

一种统一的视频-动作世界模型,通过共享的视频扩散主干网络,将策略学习、视频预测和动作评估整合在一起,用于机器人操作任务。

机器人操作(https://huggingface.co/papers?q=Robotic%20manipulation)要求模型能够生成可执行的动作,同时在实际执行前预测并评估其未来后果。我们提出了 τ₀-World Model(τ₀-WM),这是一个统一的视频-动作世界模型,将策略学习(https://huggingface.co/papers?q=policy%20learning)、视频预测(https://huggingface.co/papers?q=video%20prediction)和动作评估(https://huggingface.co/papers?q=action%20evaluation)整合在一个统一的未来预测框架内。τ₀-WM 基于共享的视频扩散主干网络(https://huggingface.co/papers?q=video%20diffusion%20backbone),提供两种互补的接口。首先,视频动作模型(https://huggingface.co/papers?q=video%20action%20model)能够从多视角观测、语言指令和机器人状态中联合预测未来的视觉潜在表示和连续动作片段。其次,动作条件视频模拟器(https://huggingface.co/papers?q=action-conditioned%20video%20simulator)将候选动作片段展开成多视角的未来画面,并预测密集的任务进度分数。该模型在大约27,300小时的真实机器人遥操作、UMI风格交互、第一人称人类视频以及执行轨迹或失败轨迹数据上进行训练,利用模态特定的监督掩码。在推理时,τ₀-WM 使用测试时计算(https://huggingface.co/papers?q=test-time%20computation)来采样动作候选,通过重降噪一致性(https://huggingface.co/papers?q=re-denoising%20consistency)进行排序,并对低质量候选调用基于模拟器的修正。在具有挑战性的长时域和细粒度机器人操作(https://huggingface.co/papers?q=robotic%20manipulation)任务中,τ₀-WM 展示了优于其他相关基线的性能。

查看 arXiv 页面(https://arxiv.org/abs/2606.01027)查看 PDF(https://arxiv.org/pdf/2606.01027)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01027)

在你的 Agent 中获取这篇论文:

hf papers read 2606.01027

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型 0

没有模型链接到本论文

请在模型的 README.md 中引用 arxiv.org/abs/2606.01027 以从此页面链接。

引用本论文的数据集 0

没有数据集链接到本论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.01027 以从此页面链接。

引用本论文的 Spaces 0

没有 Space 链接到本论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.01027 以从此页面链接。

包含本论文的收藏集 0

没有收藏集包含本论文

请将本论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

通过残差潜在动作学习基于视觉特征的世界模型

Hugging Face Daily Papers

本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。