τ_0-WM: 用于机器人操作的统一视频-动作世界模型
摘要
τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。
查看缓存全文
缓存时间: 2026/06/02 15:34
论文页面 - τ₀-WM: 一种面向机器人操作的统一视频-动作世界模型
来源:https://huggingface.co/papers/2606.01027 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一种统一的视频-动作世界模型,通过共享的视频扩散主干网络,将策略学习、视频预测和动作评估整合在一起,用于机器人操作任务。
机器人操作(https://huggingface.co/papers?q=Robotic%20manipulation)要求模型能够生成可执行的动作,同时在实际执行前预测并评估其未来后果。我们提出了 τ₀-World Model(τ₀-WM),这是一个统一的视频-动作世界模型,将策略学习(https://huggingface.co/papers?q=policy%20learning)、视频预测(https://huggingface.co/papers?q=video%20prediction)和动作评估(https://huggingface.co/papers?q=action%20evaluation)整合在一个统一的未来预测框架内。τ₀-WM 基于共享的视频扩散主干网络(https://huggingface.co/papers?q=video%20diffusion%20backbone),提供两种互补的接口。首先,视频动作模型(https://huggingface.co/papers?q=video%20action%20model)能够从多视角观测、语言指令和机器人状态中联合预测未来的视觉潜在表示和连续动作片段。其次,动作条件视频模拟器(https://huggingface.co/papers?q=action-conditioned%20video%20simulator)将候选动作片段展开成多视角的未来画面,并预测密集的任务进度分数。该模型在大约27,300小时的真实机器人遥操作、UMI风格交互、第一人称人类视频以及执行轨迹或失败轨迹数据上进行训练,利用模态特定的监督掩码。在推理时,τ₀-WM 使用测试时计算(https://huggingface.co/papers?q=test-time%20computation)来采样动作候选,通过重降噪一致性(https://huggingface.co/papers?q=re-denoising%20consistency)进行排序,并对低质量候选调用基于模拟器的修正。在具有挑战性的长时域和细粒度机器人操作(https://huggingface.co/papers?q=robotic%20manipulation)任务中,τ₀-WM 展示了优于其他相关基线的性能。
查看 arXiv 页面(https://arxiv.org/abs/2606.01027)查看 PDF(https://arxiv.org/pdf/2606.01027)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.01027)
在你的 Agent 中获取这篇论文:
hf papers read 2606.01027
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型 0
没有模型链接到本论文
请在模型的 README.md 中引用 arxiv.org/abs/2606.01027 以从此页面链接。
引用本论文的数据集 0
没有数据集链接到本论文
请在数据集的 README.md 中引用 arxiv.org/abs/2606.01027 以从此页面链接。
引用本论文的 Spaces 0
没有 Space 链接到本论文
请在 Space 的 README.md 中引用 arxiv.org/abs/2606.01027 以从此页面链接。
包含本论文的收藏集 0
没有收藏集包含本论文
请将本论文添加到收藏集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
minWM:用于实时交互式视频世界模型的全栈开源框架
minWM 是一个全栈开源框架,可将双向视频扩散模型转换为实时交互式视频世界模型,支持可控相机、低延迟推演和模块化架构。
通过残差潜在动作学习基于视觉特征的世界模型
本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。
WALL-WM:在事件节点上雕琢世界动作建模
WALL-WM 通过使用语义事件作为学习单元而非固定动作块,推进了视频-动作学习,实现了更灵活和可扩展的视觉-语言-动作训练与推理。
World-Language-Action模型:统一世界建模、语言推理与动作合成
本文介绍了World-Language-Action(WLA)模型,这是一种具身基础模型,能够从文本、图像和机器人状态中联合预测文本子任务、子目标图像和机器人动作,在模拟和真实环境中实现了最先进的多任务与长周期学习能力。
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。