Qwen-VLA:统一跨任务、环境与机器人具身形态的视觉-语言-动作建模

Hugging Face Daily Papers 论文

摘要

Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。

具身智能通常通过针对操作或导航等单一任务的专用模型进行研究,导致能力碎片化,且难以在任务、环境和机器人具身形态之间实现泛化。在这项工作中,我们研究是否可以将异质的具身决策问题统一到单个视觉-语言-动作模型中。我们提出了Qwen-VLA,这是一个统一的具身基础模型,通过基于DiT的动作解码器,将Qwen的视觉-语言建模栈从感知、理解和推理扩展到连续动作与轨迹生成。Qwen-VLA采用大规模联合预训练方案,在多种数据源上进行训练,包括机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督以及辅助视觉-语言数据。为了支持多种机器人平台,我们引入了具身感知提示条件,其中机器人特定的文本描述指定了当前具身形态和控制约定。我们进一步将操作、导航和轨迹预测纳入统一的动作与轨迹预测框架,实现了跨机器人形态、任务系列和环境的可迁移视觉接地、空间推理和连续动作生成。在操作、导航和轨迹中心的基准测试上进行的实验显示,在场景布局、背景、光照、物体配置和机器人具身形态变化下,模型展现了持续的多任务性能和分布外泛化能力。Qwen-VLA-Instruct在LIBERO上达到97.9%,在Simpler-WidowX上达到73.7%,在RoboTwin-Easy/Hard上分别达到86.1%/87.2%,在R2R上达到69.0%的OSR,在RxR上达到59.6%的SR,在真实世界ALOHA实验中平均OOD成功率为76.9%,在DOMINO动态操作中零样本成功率为26.6%。
查看原文
查看缓存全文

缓存时间: 2026/05/29 02:59

论文页面 - Qwen-VLA:跨任务、环境和机器人形态的统一视觉-语言-动作建模

来源:https://huggingface.co/papers/2605.30280 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

本文提出了一种统一的视觉-语言-动作模型,通过共享架构和训练方法集成了多样的具身决策任务,在操作、导航和轨迹预测中展现出强劲性能,并能泛化至不同的机器人平台和环境。

具身智能通常通过针对操作或导航等单一任务的专用模型来研究,导致能力碎片化,且在任务、环境和机器人形态间的泛化能力有限。在本工作中,我们研究了异质具身决策问题能否统一到单一视觉-语言-动作模型中。我们提出Qwen-VLA,一个统一的具身基础模型,将Qwen的视觉-语言建模栈从感知、理解和推理扩展到连续动作与轨迹生成,通过基于DiT的动作解码器实现。Qwen-VLA采用大规模联合预训练方案,训练数据涵盖机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督数据以及辅助的视觉-语言数据。为支持多种机器人平台,我们引入了具身感知提示条件化,通过机器人特定的文本描述来指定当前具身形态和控制约定。我们进一步将操作、导航和轨迹预测统一为一个动作与轨迹预测框架,实现了跨机器人形态、任务家族和环境的可迁移视觉基础、空间推理和连续动作生成能力。在操作、导航和轨迹中心基准上的实验表明,在场景布局、背景、光照、物体配置和机器人形态变化的情况下,该模型能够实现一致的多任务性能和分布外泛化。Qwen-VLA-Instruct在LIBERO上达到97.9%,Simpler-WidowX上达到73.7%,RoboTwin-Easy/Hard上达到86.1%/87.2%,R2R上OSR为69.0%,RxR上SR为59.6%,真实世界ALOHA实验中OOD平均成功率为76.9%,在DOMINO动态操作上零样本成功率达到26.6%。

查看arXiv页面 (https://arxiv.org/abs/2605.30280)查看PDF (https://arxiv.org/pdf/2605.30280)项目页面 (https://qwen.ai/blog?id=qwenvla)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30280)

引用本论文的模型0

无模型关联本论文

在模型README.md中引用arxiv.org/abs/2605.30280即可在本页面建立链接。

引用本论文的数据集0

无数据集关联本论文

在数据集README.md中引用arxiv.org/abs/2605.30280即可在本页面建立链接。

引用本论文的Spaces0

无Space关联本论文

在Space README.md中引用arxiv.org/abs/2605.30280即可在本页面建立链接。

包含本论文的收藏集0

无收藏集包含本论文

将本论文添加到收藏集 (https://huggingface.co/new-collection)可在本页面建立链接。

相似文章

视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟

Hugging Face Daily Papers

视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

HiVLA: 一种以视觉接地为中心的分层具身操作系统

Hugging Face Daily Papers

HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。

OneVL:基于视觉语言解释的单步隐式推理与规划

Hugging Face Daily Papers

# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v