Qwen-RobotManip技术报告:对齐实现机器人操控基础模型规模化
摘要
介绍Qwen-RobotManip,一个用于机器人操控的视觉-语言-动作基础模型,通过在表征、运动和行为维度上的统一对齐实现泛化,从而能够在多样化的数据源上进行大规模训练。它在多个分布外基准测试中优于先前的最先进模型,并展现出涌现能力,如零样本指令跟随和跨本体迁移。
查看缓存全文
缓存时间: 2026/06/29 22:05
论文页面 - Qwen-RobotManip 技术报告:对齐解锁机器人操作基础模型的规模化能力
来源:https://huggingface.co/papers/2606.17846 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一个面向机器人操作的视觉-语言-动作基础模型,通过在表示、运动和行为维度上的统一对齐实现泛化能力,使其能够在多样化数据源上进行大规模训练。
语言和多模态领域的基础模型通过将异构数据在统一范式下对齐并进行大规模训练,实现了强大的泛化能力。在本报告中,我们探讨了这种规模化范式是否适用于机器人操作,以实现真正的泛化。这具有挑战性,因为与文本不同,操作数据本质上具有异构性、采集成本高昂且多样性狭窄,使得对齐与规模化同时面临困难。我们提出了 Qwen-RobotManip,一个基于 Qwen-VL 构建的通用视觉-语言-动作基础模型(https://huggingface.co/papers?q=Vision-Language-Action%20foundation%20model)。Qwen-RobotManip 引入了跨操作表示、运动和行为维度的统一对齐框架(https://huggingface.co/papers?q=unified%20alignment%20framework),使大规模多源训练(https://huggingface.co/papers?q=large-scale%20multi-source%20training)变得协调一致而非相互冲突。这种对齐能力进而使 Qwen-RobotManip 能够以先前训练范式无法维持的规模吸收操作数据。一个人到机器人合成流程将第一人称手部演示(https://huggingface.co/papers?q=egocentric%20hand%20demonstrations)转换为覆盖 15 个平台的机器人轨迹(https://huggingface.co/papers?q=robot%20trajectories),同时一个严格的整理流程(https://huggingface.co/papers?q=curation%20pipeline)协调了异构数据集。仅使用开源数据集和人类视频,不依赖专有数据采集,Qwen-RobotManip 构建了约 38,100 小时的预训练语料库,并展现出新兴泛化能力(https://huggingface.co/papers?q=emergent%20generalization%20capabilities),包括零样本指令跟随(https://huggingface.co/papers?q=zero-shot%20instruction%20following)、对扰动的鲁棒性、响应式错误恢复(https://huggingface.co/papers?q=reactive%20error%20recovery)以及跨本体迁移(https://huggingface.co/papers?q=cross-embodiment%20transfer)。我们发现标准基准无法捕捉预训练质量,因此采用 OOD 设置(https://huggingface.co/papers?q=OOD%20settings),包括 RoboCasa365(https://huggingface.co/papers?q=RoboCasa365)、LIBERO-Plus(https://huggingface.co/papers?q=LIBERO-Plus)、EBench(https://huggingface.co/papers?q=EBench)、RoboTwin-Clean2Rand(https://huggingface.co/papers?q=RoboTwin-Clean2Rand)、RoboTwin-IF(https://huggingface.co/papers?q=RoboTwin-IF)和 RoboTwin-XE(https://huggingface.co/papers?q=RoboTwin-XE)。Qwen-RobotManip 在所有 OOD 设置(https://huggingface.co/papers?q=OOD%20settings)中大幅优于先前的最先进模型(包括 π0.5),在 RoboChallenge(https://huggingface.co/papers?q=RoboChallenge)中排名第一,相对提升 20%,并在包括 AgileX ALOHA、Franka、UR 和 ARX 的真实机器人平台上得到验证。
查看 arXiv 页面(https://arxiv.org/abs/2606.17846) 查看 PDF(https://arxiv.org/pdf/2606.17846) 项目页面(https://qwen.ai/blog?id=qwen-robotmanip) GitHub(https://github.com/QwenLM/Qwen-RobotManip) 添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17846)
引用本论文的模型 0
没有模型链接本论文
在模型的 README.md 中引用 arxiv.org/abs/2606.17846 以从此页面链接。
引用本论文的数据集 1
cy0307/awesome-egocentric-atlas 查看器•更新于 5 天前 • 638 • 851 • 2 (https://huggingface.co/datasets/cy0307/awesome-egocentric-atlas)
引用本论文的 Space 0
没有 Space 链接本论文
在 Space 的 README.md 中引用 arxiv.org/abs/2606.17846 以从此页面链接。
包含本论文的集合 0
没有集合包含本论文
将本论文添加到一个集合(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界建模
Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。
Qwen-VLA:统一跨任务、环境与机器人具身形态的视觉-语言-动作建模
Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。
Qwen-RobotNav 技术报告:为自主导航系统设计的可扩展导航模型
Qwen-RobotNav 是一种可扩展的导航模型,通过参数化接口实现动态任务模式和观测参数,在多任务训练和零样本泛化到真实机器人领域达到了最先进水平。
Qwen的具身世界建模 (28分钟阅读)
Qwen-RobotWorld技术报告提出了一种统一的、语言条件化的视频世界模型,用于具身智能,能够从当前观测中预测未来视频,涵盖机器人、自动驾驶、导航等多个领域,并应用于合成数据生成、策略评估和规划。
Qwen-Robot Suite: 面向物理世界智能的基础模型套件
Qwen-Robot Suite 是一款面向物理世界智能的基础模型套件,使机器人能够有效地理解和与真实世界交互。