Qwen的具身世界建模 (28分钟阅读)

TLDR AI 2026/06/17 00:00 论文

world-model embodied-ai video-generation language-conditioned robotics autonomous-driving navigation

摘要

Qwen-RobotWorld技术报告提出了一种统一的、语言条件化的视频世界模型，用于具身智能，能够从当前观测中预测未来视频，涵盖机器人、自动驾驶、导航等多个领域，并应用于合成数据生成、策略评估和规划。

Qwen-RobotWorld是一种语言条件化的视频世界模型，利用自然语言作为统一的动作接口，覆盖机器人、导航、驾驶及其他具身领域。

查看原文

查看缓存全文

缓存时间: 2026/06/18 00:54

# Qwen-RobotWorld 技术报告：通过语言条件视频生成统一具身世界模型
来源：https://arxiv.org/abs/2606.17030
作者：Jie Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+J)，Xiaoyue Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+X)，Anzhe Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+A)，Deqing Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+D)，Gengze Zhou (https://arxiv.org/search/cs?searchtype=author&query=Zhou,+G)，Hale Yin (https://arxiv.org/search/cs?searchtype=author&query=Yin,+H)，Haoqi Yuan (https://arxiv.org/search/cs?searchtype=author&query=Yuan,+H)，Haoyang Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+H)，Jiahao Li (https://arxiv.org/search/cs?searchtype=author&query=Li,+J)，Jiazhao Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+J)，Jingren Zhou (https://arxiv.org/search/cs?searchtype=author&query=Zhou,+J)，Kaiyuan Gao (https://arxiv.org/search/cs?searchtype=author&query=Gao,+K)，Kun Yan (https://arxiv.org/search/cs?searchtype=author&query=Yan,+K)，Lihan Jiang (https://arxiv.org/search/cs?searchtype=author&query=Jiang,+L)，Ningyuan Tang (https://arxiv.org/search/cs?searchtype=author&query=Tang,+N)，Pei Lin (https://arxiv.org/search/cs?searchtype=author&query=Lin,+P)，Qihang Peng (https://arxiv.org/search/cs?searchtype=author&query=Peng,+Q)，Shengming Yin (https://arxiv.org/search/cs?searchtype=author&query=Yin,+S)，Tianhe Wu (https://arxiv.org/search/cs?searchtype=author&query=Wu,+T)，Tianyi Yan (https://arxiv.org/search/cs?searchtype=author&query=Yan,+T)，Xiao Xu (https://arxiv.org/search/cs?searchtype=author&query=Xu,+X)，Yan Shu (https://arxiv.org/search/cs?searchtype=author&query=Shu,+Y)，Yanran Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Y)，Ye Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+Y)，Yi Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+Y)，Yilei Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+Y)，Yixian Xu (https://arxiv.org/search/cs?searchtype=author&query=Xu,+Y)，Yiyang Huang (https://arxiv.org/search/cs?searchtype=author&query=Huang,+Y)，Yuxiang Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+Y)，Zekai Zhang (https://arxiv.org/search/cs?searchtype=author&query=Zhang,+Z)，Zhendong Wang (https://arxiv.org/search/cs?searchtype=author&query=Wang,+Z)，Zixing Lei (https://arxiv.org/search/cs?searchtype=author&query=Lei,+Z)，Zhixuan Liang (https://arxiv.org/search/cs?searchtype=author&query=Liang,+Z)，Zihao Liu (https://arxiv.org/search/cs?searchtype=author&query=Liu,+Z)，Zikai Zhou (https://arxiv.org/search/cs?searchtype=author&query=Zhou,+Z)，Chenxu Lv (https://arxiv.org/search/cs?searchtype=author&query=Lv,+C)，Xiong-Hui Chen (https://arxiv.org/search/cs?searchtype=author&query=Chen,+X)，Chenfei Wu (https://arxiv.org/search/cs?searchtype=author&query=Wu,+C)

查看PDF (https://arxiv.org/pdf/2606.17030)

> 摘要：我们提出了 Qwen-RobotWorld，一个用于具身智能的语言条件视频世界模型。它以自然语言作为统一动作接口，从当前观测出发，预测机器人操作、自动驾驶、室内导航以及人-机迁移等场景中物理可行的未来视觉轨迹。这一统一公式提供了三个有前景的应用方向：用于策略训练增强的合成数据生成、用于策略评估的可扩展虚拟环境，以及用于下游机器人控制的语言引导规划信号。该模型通过三部分设计实现：a) 双流 MMDiT 与 MLLM 动作编码，其中60层双流扩散变压器通过逐层联合注意力将冻结的 Qwen2.5-VL 语义与 video-VAE 潜在变量耦合；b) 具身世界知识（EWK），一个860万视频-文本语料库（超过2亿帧），包含20多种具身形态和500多种动作类别的动作-语言映射；c) 通用+专家渐进式课程，一种两阶段训练策略，首先学习通用视觉先验，然后在共享语言接口下注入具身专业化。大量结果显示其具有强竞争力：在 EWMBench 和 DreamGen Bench 上总体排名第一，在 WorldModelBench 和 PBench 上优于所有开源模型。对 RoboTwin-IF 基准的额外零样本分析进一步支持了鲁棒的泛化能力和多视角一致性。

## 提交历史

来自：Shengming Yin [查看邮件](https://arxiv.org/show-email/5ef86a59/2606.17030) **[\[v1\]](https://arxiv.org/abs/2606.17030v1)** 2026年6月15日星期一 17:52:31 UTC（19,155 KB） **\[v2\]** 2026年6月16日星期二 16:55:52 UTC（19,155 KB）