Qwen-RobotManip技术报告:对齐实现机器人操控基础模型规模化

Hugging Face Daily Papers 论文

摘要

介绍Qwen-RobotManip,一个用于机器人操控的视觉-语言-动作基础模型,通过在表征、运动和行为维度上的统一对齐实现泛化,从而能够在多样化的数据源上进行大规模训练。它在多个分布外基准测试中优于先前的最先进模型,并展现出涌现能力,如零样本指令跟随和跨本体迁移。

语言和多模态基础模型通过统一公式对齐异构数据并进行大规模训练,实现强大的泛化能力。在本报告中,我们研究这种规模化方法是否可应用于机器人操控以实现真正的泛化。这具有挑战性,因为与文本不同,操控数据本质上是异构的,收集成本高昂且多样性狭窄,使得对齐和规模化同时变得困难。我们提出Qwen-RobotManip,一个基于Qwen-VL构建的可泛化视觉-语言-动作基础模型。Qwen-RobotManip引入了在操控的表征、运动和行为维度上的统一对齐框架,使大规模多源训练协调一致而非相互冲突。这种对齐能力进而使Qwen-RobotManip能够吸收此前训练机制无法承载的规模的操控数据。一个人-机器人合成管线将第一人称手部演示转换为覆盖15个平台的机器人轨迹,同时一个严格的策展管线调和了异构数据集。仅使用开源数据集和人类视频,无需专有数据收集,Qwen-RobotManip构建了约38,100小时的预训练语料库,并展现出涌现的泛化能力,包括零样本指令跟随、对扰动的鲁棒性、反应式错误恢复以及跨本体迁移。我们发现标准基准无法捕捉预训练质量,因此采用了包括RoboCasa365、LIBERO-Plus、EBench、RoboTwin-Clean2Rand、RoboTwin-IF和RoboTwin-XE在内的分布外设置。Qwen-RobotManip在所有分布外设置中大幅优于包括π0.5在内的先前最先进模型,在RoboChallenge中排名第一且相对提升20%,并在包括AgileX ALOHA、Franka、UR和ARX的真实机器人平台上得到验证。
查看原文
查看缓存全文

缓存时间: 2026/06/29 22:05

论文页面 - Qwen-RobotManip 技术报告:对齐解锁机器人操作基础模型的规模化能力

来源:https://huggingface.co/papers/2606.17846 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

一个面向机器人操作的视觉-语言-动作基础模型,通过在表示、运动和行为维度上的统一对齐实现泛化能力,使其能够在多样化数据源上进行大规模训练。

语言和多模态领域的基础模型通过将异构数据在统一范式下对齐并进行大规模训练,实现了强大的泛化能力。在本报告中,我们探讨了这种规模化范式是否适用于机器人操作,以实现真正的泛化。这具有挑战性,因为与文本不同,操作数据本质上具有异构性、采集成本高昂且多样性狭窄,使得对齐与规模化同时面临困难。我们提出了 Qwen-RobotManip,一个基于 Qwen-VL 构建的通用视觉-语言-动作基础模型(https://huggingface.co/papers?q=Vision-Language-Action%20foundation%20model)。Qwen-RobotManip 引入了跨操作表示、运动和行为维度的统一对齐框架(https://huggingface.co/papers?q=unified%20alignment%20framework),使大规模多源训练(https://huggingface.co/papers?q=large-scale%20multi-source%20training)变得协调一致而非相互冲突。这种对齐能力进而使 Qwen-RobotManip 能够以先前训练范式无法维持的规模吸收操作数据。一个人到机器人合成流程将第一人称手部演示(https://huggingface.co/papers?q=egocentric%20hand%20demonstrations)转换为覆盖 15 个平台的机器人轨迹(https://huggingface.co/papers?q=robot%20trajectories),同时一个严格的整理流程(https://huggingface.co/papers?q=curation%20pipeline)协调了异构数据集。仅使用开源数据集和人类视频,不依赖专有数据采集,Qwen-RobotManip 构建了约 38,100 小时的预训练语料库,并展现出新兴泛化能力(https://huggingface.co/papers?q=emergent%20generalization%20capabilities),包括零样本指令跟随(https://huggingface.co/papers?q=zero-shot%20instruction%20following)、对扰动的鲁棒性、响应式错误恢复(https://huggingface.co/papers?q=reactive%20error%20recovery)以及跨本体迁移(https://huggingface.co/papers?q=cross-embodiment%20transfer)。我们发现标准基准无法捕捉预训练质量,因此采用 OOD 设置(https://huggingface.co/papers?q=OOD%20settings),包括 RoboCasa365(https://huggingface.co/papers?q=RoboCasa365)、LIBERO-Plus(https://huggingface.co/papers?q=LIBERO-Plus)、EBench(https://huggingface.co/papers?q=EBench)、RoboTwin-Clean2Rand(https://huggingface.co/papers?q=RoboTwin-Clean2Rand)、RoboTwin-IF(https://huggingface.co/papers?q=RoboTwin-IF)和 RoboTwin-XE(https://huggingface.co/papers?q=RoboTwin-XE)。Qwen-RobotManip 在所有 OOD 设置(https://huggingface.co/papers?q=OOD%20settings)中大幅优于先前的最先进模型(包括 π0.5),在 RoboChallenge(https://huggingface.co/papers?q=RoboChallenge)中排名第一,相对提升 20%,并在包括 AgileX ALOHA、Franka、UR 和 ARX 的真实机器人平台上得到验证。

查看 arXiv 页面(https://arxiv.org/abs/2606.17846) 查看 PDF(https://arxiv.org/pdf/2606.17846) 项目页面(https://qwen.ai/blog?id=qwen-robotmanip) GitHub(https://github.com/QwenLM/Qwen-RobotManip) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17846)

引用本论文的模型 0

没有模型链接本论文

在模型的 README.md 中引用 arxiv.org/abs/2606.17846 以从此页面链接。

引用本论文的数据集 1

cy0307/awesome-egocentric-atlas 查看器•更新于 5 天前 • 638 • 851 • 2 (https://huggingface.co/datasets/cy0307/awesome-egocentric-atlas)

引用本论文的 Space 0

没有 Space 链接本论文

在 Space 的 README.md 中引用 arxiv.org/abs/2606.17846 以从此页面链接。

包含本论文的集合 0

没有集合包含本论文

将本论文添加到一个集合(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界建模

Hugging Face Daily Papers

Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。

Qwen的具身世界建模 (28分钟阅读)

TLDR AI

Qwen-RobotWorld技术报告提出了一种统一的、语言条件化的视频世界模型,用于具身智能,能够从当前观测中预测未来视频,涵盖机器人、自动驾驶、导航等多个领域,并应用于合成数据生成、策略评估和规划。