Qwen-VLA：统一跨任务、环境与机器人具身形态的视觉-语言-动作建模

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型，整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件，实现了强性能与分布外泛化。

具身智能通常通过针对操作或导航等单一任务的专用模型进行研究，导致能力碎片化，且难以在任务、环境和机器人具身形态之间实现泛化。在这项工作中，我们研究是否可以将异质的具身决策问题统一到单个视觉-语言-动作模型中。我们提出了Qwen-VLA，这是一个统一的具身基础模型，通过基于DiT的动作解码器，将Qwen的视觉-语言建模栈从感知、理解和推理扩展到连续动作与轨迹生成。Qwen-VLA采用大规模联合预训练方案，在多种数据源上进行训练，包括机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督以及辅助视觉-语言数据。为了支持多种机器人平台，我们引入了具身感知提示条件，其中机器人特定的文本描述指定了当前具身形态和控制约定。我们进一步将操作、导航和轨迹预测纳入统一的动作与轨迹预测框架，实现了跨机器人形态、任务系列和环境的可迁移视觉接地、空间推理和连续动作生成。在操作、导航和轨迹中心的基准测试上进行的实验显示，在场景布局、背景、光照、物体配置和机器人具身形态变化下，模型展现了持续的多任务性能和分布外泛化能力。Qwen-VLA-Instruct在LIBERO上达到97.9%，在Simpler-WidowX上达到73.7%，在RoboTwin-Easy/Hard上分别达到86.1%/87.2%，在R2R上达到69.0%的OSR，在RxR上达到59.6%的SR，在真实世界ALOHA实验中平均OOD成功率为76.9%，在DOMINO动态操作中零样本成功率为26.6%。

查看原文

查看缓存全文

缓存时间: 2026/05/29 02:59

论文页面 - Qwen-VLA：跨任务、环境和机器人形态的统一视觉-语言-动作建模

来源：https://huggingface.co/papers/2605.30280 作者：

摘要

本文提出了一种统一的视觉-语言-动作模型，通过共享架构和训练方法集成了多样的具身决策任务，在操作、导航和轨迹预测中展现出强劲性能，并能泛化至不同的机器人平台和环境。

具身智能通常通过针对操作或导航等单一任务的专用模型来研究，导致能力碎片化，且在任务、环境和机器人形态间的泛化能力有限。在本工作中，我们研究了异质具身决策问题能否统一到单一视觉-语言-动作模型中。我们提出Qwen-VLA，一个统一的具身基础模型，将Qwen的视觉-语言建模栈从感知、理解和推理扩展到连续动作与轨迹生成，通过基于DiT的动作解码器实现。Qwen-VLA采用大规模联合预训练方案，训练数据涵盖机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督数据以及辅助的视觉-语言数据。为支持多种机器人平台，我们引入了具身感知提示条件化，通过机器人特定的文本描述来指定当前具身形态和控制约定。我们进一步将操作、导航和轨迹预测统一为一个动作与轨迹预测框架，实现了跨机器人形态、任务家族和环境的可迁移视觉基础、空间推理和连续动作生成能力。在操作、导航和轨迹中心基准上的实验表明，在场景布局、背景、光照、物体配置和机器人形态变化的情况下，该模型能够实现一致的多任务性能和分布外泛化。Qwen-VLA-Instruct在LIBERO上达到97.9%，Simpler-WidowX上达到73.7%，RoboTwin-Easy/Hard上达到86.1%/87.2%，R2R上OSR为69.0%，RxR上SR为59.6%，真实世界ALOHA实验中OOD平均成功率为76.9%，在DOMINO动态操作上零样本成功率达到26.6%。

查看arXiv页面 (https://arxiv.org/abs/2605.30280)查看PDF (https://arxiv.org/pdf/2605.30280)项目页面 (https://qwen.ai/blog?id=qwenvla)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30280)

引用本论文的模型0

无模型关联本论文

在模型README.md中引用arxiv.org/abs/2605.30280即可在本页面建立链接。

引用本论文的数据集0

无数据集关联本论文

在数据集README.md中引用arxiv.org/abs/2605.30280即可在本页面建立链接。

引用本论文的Spaces0

无Space关联本论文

在Space README.md中引用arxiv.org/abs/2605.30280即可在本页面建立链接。

包含本论文的收藏集0

无收藏集包含本论文

将本论文添加到收藏集 (https://huggingface.co/new-collection)可在本页面建立链接。

Qwen-VLA：统一跨任务、环境与机器人具身形态的视觉-语言-动作建模

论文页面 - Qwen-VLA：跨任务、环境和机器人形态的统一视觉-语言-动作建模

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的Spaces0

包含本论文的收藏集0

相似文章

Qwen-RobotWorld技术报告：通过语言条件视频生成统一具身世界建模

AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型

Qwen-RobotManip技术报告：对齐实现机器人操控基础模型规模化

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

HiVLA: 一种以视觉接地为中心的分层具身操作系统

提交意见反馈