Qwen-VLA:统一跨任务、环境与机器人具身形态的视觉-语言-动作建模
摘要
Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。
查看缓存全文
缓存时间: 2026/05/29 02:59
论文页面 - Qwen-VLA:跨任务、环境和机器人形态的统一视觉-语言-动作建模
来源:https://huggingface.co/papers/2605.30280 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
本文提出了一种统一的视觉-语言-动作模型,通过共享架构和训练方法集成了多样的具身决策任务,在操作、导航和轨迹预测中展现出强劲性能,并能泛化至不同的机器人平台和环境。
具身智能通常通过针对操作或导航等单一任务的专用模型来研究,导致能力碎片化,且在任务、环境和机器人形态间的泛化能力有限。在本工作中,我们研究了异质具身决策问题能否统一到单一视觉-语言-动作模型中。我们提出Qwen-VLA,一个统一的具身基础模型,将Qwen的视觉-语言建模栈从感知、理解和推理扩展到连续动作与轨迹生成,通过基于DiT的动作解码器实现。Qwen-VLA采用大规模联合预训练方案,训练数据涵盖机器人操作轨迹、人类第一人称演示、合成仿真数据、视觉-语言导航数据、轨迹中心监督数据以及辅助的视觉-语言数据。为支持多种机器人平台,我们引入了具身感知提示条件化,通过机器人特定的文本描述来指定当前具身形态和控制约定。我们进一步将操作、导航和轨迹预测统一为一个动作与轨迹预测框架,实现了跨机器人形态、任务家族和环境的可迁移视觉基础、空间推理和连续动作生成能力。在操作、导航和轨迹中心基准上的实验表明,在场景布局、背景、光照、物体配置和机器人形态变化的情况下,该模型能够实现一致的多任务性能和分布外泛化。Qwen-VLA-Instruct在LIBERO上达到97.9%,Simpler-WidowX上达到73.7%,RoboTwin-Easy/Hard上达到86.1%/87.2%,R2R上OSR为69.0%,RxR上SR为59.6%,真实世界ALOHA实验中OOD平均成功率为76.9%,在DOMINO动态操作上零样本成功率达到26.6%。
查看arXiv页面 (https://arxiv.org/abs/2605.30280)查看PDF (https://arxiv.org/pdf/2605.30280)项目页面 (https://qwen.ai/blog?id=qwenvla)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30280)
引用本论文的模型0
无模型关联本论文
在模型README.md中引用arxiv.org/abs/2605.30280即可在本页面建立链接。
引用本论文的数据集0
无数据集关联本论文
在数据集README.md中引用arxiv.org/abs/2605.30280即可在本页面建立链接。
引用本论文的Spaces0
无Space关联本论文
在Space README.md中引用arxiv.org/abs/2605.30280即可在本页面建立链接。
包含本论文的收藏集0
无收藏集包含本论文
将本论文添加到收藏集 (https://huggingface.co/new-collection)可在本页面建立链接。
相似文章
视觉思考-视觉-语言-行动策略:视觉中间推理实现高效低延迟
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
HiVLA: 一种以视觉接地为中心的分层具身操作系统
HiVLA 提出了一种分层视觉-语言-动作框架,通过使用扩散变换器动作专家将语义规划与运动控制解耦,从而改进机器人操作。该系统结合了用于任务分解和视觉接地的VLM规划器与使用级联交叉注意力的专用DiT动作专家,在长周期任务和细粒度操作方面尤其优于端到端基线。
D-VLA: 面向视觉-语言-动作模型的高并发分布式异步强化学习框架
D-VLA 提出了一种高并发分布式异步强化学习框架,用于视觉-语言-动作模型,采用平面解耦和泳道管线提升大规模具身智能训练中的吞吐量和效率。
AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家
提出了AR-VLA,一个自回归动作专家,它通过长期记忆生成连续的、具有上下文感知能力的机器人策略训练的动作序列,相比反应式VLA模型,提高了轨迹平滑度和任务成功率。
OneVL:基于视觉语言解释的单步隐式推理与规划
# 论文页面 - OneVL:基于视觉语言解释的单步隐式推理与规划 来源:[https://huggingface.co/papers/2604.18486](https://huggingface.co/papers/2604.18486) 发布于 4月20日 [\#1 每日论文](https://huggingface.co/papers/date/2026-04-21) 作者:, , , , , , , , , , , , , , , , , , , , ## 摘要 OneVL 提出了一个统一的视觉-语言-行动框架,通过整合语言和 v