Qwen的具身世界建模 (28分钟阅读)
摘要
Qwen-RobotWorld技术报告提出了一种统一的、语言条件化的视频世界模型,用于具身智能,能够从当前观测中预测未来视频,涵盖机器人、自动驾驶、导航等多个领域,并应用于合成数据生成、策略评估和规划。
Qwen-RobotWorld是一种语言条件化的视频世界模型,利用自然语言作为统一的动作接口,覆盖机器人、导航、驾驶及其他具身领域。
查看缓存全文
缓存时间: 2026/06/18 00:54
# Qwen-RobotWorld 技术报告:通过语言条件视频生成统一具身世界模型 来源:https://arxiv.org/abs/2606.17030 作者:Jie Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+J),Xiaoyue Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+X),Anzhe Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+A),Deqing Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+D),Gengze Zhou (https://arxiv.org/search/cs?searchtype=author&query=Zhou,+G),Hale Yin (https://arxiv.org/search/cs?searchtype=author&query=Yin,+H),Haoqi Yuan (https://arxiv.org/search/cs?searchtype=author&query=Yuan,+H),Haoyang Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+H),Jiahao Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+J),Jiazhao Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+J),Jingren Zhou (https://arxiv.org/search/cs?searchtype=author&query=Zhou,+J),Kaiyuan Gao (https://arxiv.org/search/cs?searchtype=author&query=Gao,+K),Kun Yan (https://arxiv.org/search/cs?searchtype=author&query=Yan,+K),Lihan Jiang (https://arxiv.org/search/cs?searchtype=author&query=Jiang,+L),Ningyuan Tang (https://arxiv.org/search/cs?searchtype=author&query=Tang,+N),Pei Lin (https://arxiv.org/search/cs?searchtype=author&query=Lin,+P),Qihang Peng (https://arxiv.org/search/cs?searchtype=author&query=Peng,+Q),Shengming Yin (https://arxiv.org/search/cs?searchtype=author&query=Yin,+S),Tianhe Wu (https://arxiv.org/search/cs?searchtype=author&query=Wu,+T),Tianyi Yan (https://arxiv.org/search/cs?searchtype=author&query=Yan,+T),Xiao Xu (https://arxiv.org/search/cs?searchtype=author&query=Xu,+X),Yan Shu (https://arxiv.org/search/cs?searchtype=author&query=Shu,+Y),Yanran Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Y),Ye Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+Y),Yi Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+Y),Yilei Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+Y),Yixian Xu (https://arxiv.org/search/cs?searchtype=author&query=Xu,+Y),Yiyang Huang (https://arxiv.org/search/cs?searchtype=author&query=Huang,+Y),Yuxiang Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+Y),Zekai Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Z),Zhendong Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+Z),Zixing Lei (https://arxiv.org/search/cs?searchtype=author&query=Lei,+Z),Zhixuan Liang (https://arxiv.org/search/cs?searchtype=author&query=Liang,+Z),Zihao Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+Z),Zikai Zhou (https://arxiv.org/search/cs?searchtype=author&query=Zhou,+Z),Chenxu Lv (https://arxiv.org/search/cs?searchtype=author&query=Lv,+C),Xiong-Hui Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+X),Chenfei Wu (https://arxiv.org/search/cs?searchtype=author&query=Wu,+C) 查看PDF (https://arxiv.org/pdf/2606.17030) > 摘要:我们提出了 Qwen-RobotWorld,一个用于具身智能的语言条件视频世界模型。它以自然语言作为统一动作接口,从当前观测出发,预测机器人操作、自动驾驶、室内导航以及人-机迁移等场景中物理可行的未来视觉轨迹。这一统一公式提供了三个有前景的应用方向:用于策略训练增强的合成数据生成、用于策略评估的可扩展虚拟环境,以及用于下游机器人控制的语言引导规划信号。该模型通过三部分设计实现:a) 双流 MMDiT 与 MLLM 动作编码,其中60层双流扩散变压器通过逐层联合注意力将冻结的 Qwen2.5-VL 语义与 video-VAE 潜在变量耦合;b) 具身世界知识(EWK),一个860万视频-文本语料库(超过2亿帧),包含20多种具身形态和500多种动作类别的动作-语言映射;c) 通用+专家渐进式课程,一种两阶段训练策略,首先学习通用视觉先验,然后在共享语言接口下注入具身专业化。大量结果显示其具有强竞争力:在 EWMBench 和 DreamGen Bench 上总体排名第一,在 WorldModelBench 和 PBench 上优于所有开源模型。对 RoboTwin-IF 基准的额外零样本分析进一步支持了鲁棒的泛化能力和多视角一致性。 ## 提交历史 来自:Shengming Yin [查看邮件](https://arxiv.org/show-email/5ef86a59/2606.17030) **[\[v1\]](https://arxiv.org/abs/2606.17030v1)** 2026年6月15日星期一 17:52:31 UTC(19,155 KB) **\[v2\]** 2026年6月16日星期二 16:55:52 UTC(19,155 KB)
相似文章
Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界建模
Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。
Qwen-Robot Suite: 面向物理世界智能的基础模型套件
Qwen-Robot Suite 是一款面向物理世界智能的基础模型套件,使机器人能够有效地理解和与真实世界交互。
Qwen/Qwen-AgentWorld-35B-A3B
Qwen 发布 Qwen-AgentWorld-35B-A3B,这是一个原生语言世界模型,能够通过长链思维推理模拟七个领域的智能体环境。该模型采用三阶段流水线训练,支持 MCP、搜索、终端、SWE、Android、Web 和操作系统交互。
Qwen-AgentWorld: 通用智能体的语言世界模型
Qwen-AgentWorld 引入了适用于智能体环境的语言世界模型,涵盖七个领域,并具备长链思维推理能力。该工作包含一个新基准 AgentWorldBench,并且表明世界建模能够提升下游智能体的性能。
Qwen-VLA:统一跨任务、环境与机器人具身形态的视觉-语言-动作建模
Qwen-VLA是一个面向具身决策的统一视觉-语言-动作模型,整合了不同机器人平台上的操作、导航与轨迹预测。它采用基于DiT的动作解码器和具身感知提示条件,实现了强性能与分布外泛化。