DreamX-World 1.0: 通用交互式世界模型

Hugging Face Daily Papers 论文

摘要

DreamX-World 1.0 是一个通用的交互式文本/图像到视频世界模型,支持相机导航、场景持久化和跨多个领域的可提示事件,利用 E-PRoPE、因果强制和记忆条件场景持久化等新技术实现可控的长时程生成。

DreamX-World 1.0 是一个通用的交互式文本/图像到视频世界模型,用于可控长时程生成。它支持相机导航、重新访问之前观察过的区域,以及逼真、游戏风格和风格化领域中的可提示事件。我们的数据引擎结合了相机精确的虚幻引擎渲染、富含动作的游戏录制以及带有恢复相机几何结构的真实世界视频。在相机控制方面,我们引入了 E-PRoPE,这是一种轻量级的投影位置编码变体,它在保留 PRoPE 的投影相机几何结构的同时,对空间减少的 token 应用相机感知注意力。我们通过因果强制、DMD 风格蒸馏和长序列训练,将双向视频生成器转换为几步自回归世界模型。在自生成的长时程上下文上进行训练,使模型暴露于自身生成的历史中,并减少在自回归块中累积的风格和颜色漂移。记忆条件场景持久化通过基于相机几何的检索来获取早期视图,而残差回收使条件化路径对不完美的记忆潜在变量不那么敏感。事件指令调优添加了可组合的事件控制,强化学习对齐则恢复了蒸馏后的相机控制和视觉质量。通过混合精度 DiT 执行、残差重用、75% 剪枝的 VAE 解码和异步流水线并行,DreamX-World 1.0 在八块 RTX 5090 GPU 上达到高达 16 FPS。在我们的 5 秒基础评估中,DreamX-World 1.0 的相机控制得分为 73.75,总体得分为 84.76,在总体得分上优于 HY-WorldPlay 1.5(80.79)和 LingBot-World(80.45)。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:32

论文页面 - DreamX-World 1.0: 通用交互式世界模型

来源:https://huggingface.co/papers/2606.16993 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

DreamX-World 1.0 是一个交互式文本/图像到视频模型,通过专门的编码、训练技术和优化方法,能够生成长时内容,并支持相机控制和场景持久性。

DreamX-World 1.0 是一个面向可控长时生成的通用交互式文本/图像到视频世界模型。它支持相机导航、回顾之前观察过的区域,以及跨逼真、游戏风格和风格化领域的可提示事件。我们的数据引擎结合了相机精确的 Unreal Engine 渲染、富含动作的游戏录制以及带有恢复相机几何的真实世界视频。在相机控制方面,我们引入了E-PRoPE (https://huggingface.co/papers?q=E-PRoPE),它是projective positional encoding (https://huggingface.co/papers?q=projective%20positional%20encoding)的一个轻量级变体,保留了PRoPE (https://huggingface.co/papers?q=PRoPE)的投影相机几何,同时对空间降维的令牌应用camera-aware attention (https://huggingface.co/papers?q=camera-aware%20attention)。我们通过causal forcing (https://huggingface.co/papers?q=causal%20forcing)、DMD-style distillation (https://huggingface.co/papers?q=DMD-style%20distillation) 和long-rollout training (https://huggingface.co/papers?q=long-rollout%20training),将一个bidirectional video generator (https://huggingface.co/papers?q=bidirectional%20video%20generator)转换成一个几步的自回归世界模型 (https://huggingface.co/papers?q=autoregressive%20world%20model)。在自生成长时上下文上进行训练,使模型暴露于自身生成的历史,从而减少跨自回归块累积的风格和颜色漂移。Memory-Conditioned Scene Persistence (https://huggingface.co/papers?q=Memory-Conditioned%20Scene%20Persistence)通过基于相机几何的检索来获取早期视图,而residual recycling (https://huggingface.co/papers?q=residual%20recycling)则使条件路径对不完美的记忆潜在表示不那么敏感。Event Instruction Tuning (https://huggingface.co/papers?q=Event%20Instruction%20Tuning)增加了可组合的事件控制,reinforcement learning alignment (https://huggingface.co/papers?q=reinforcement%20learning%20alignment)则在蒸馏后恢复相机控制和视觉质量。通过mixed-precision DiT execution (https://huggingface.co/papers?q=mixed-precision%20DiT%20execution)、残差复用、75%裁剪的 VAE 解码以及asynchronous pipeline parallelism (https://huggingface.co/papers?q=asynchronous%20pipeline%20parallelism),DreamX-World 1.0 在八块 RTX 5090 GPU 上可达 16 FPS。在我们的 5 秒基础评估中,DreamX-World 1.0 的相机控制得分为 73.75,总体得分为 84.76,在总体得分上优于 HY-WorldPlay 1.5 和 LingBot-World,后两者分别为 80.79 和 80.45。

查看 arXiv 页面 (https://arxiv.org/abs/2606.16993)查看 PDF (https://arxiv.org/pdf/2606.16993)项目页面 (https://amap-ml.github.io/DreamX_World/)GitHub264 (https://github.com/AMAP-ML/DreamX-World)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16993)

在您的代理中获取此论文:

hf papers read 2606\.16993

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

GD-ML/DreamX-World-5B 图像到视频• 5B• 更新于约4小时前 • 1 (https://huggingface.co/GD-ML/DreamX-World-5B)

引用此论文的数据集0

没有与此论文链接的数据集

请在数据集 README.md 中引用 arxiv.org/abs/2606.16993 以从此页面链接。

引用此论文的 Space0

没有与此论文链接的 Space

请在 Space README.md 中引用 arxiv.org/abs/2606.16993 以从此页面链接。

包含此论文的收藏2

相似文章

Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界建模

Hugging Face Daily Papers

Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。

tencent/HY-World-2.0

Hugging Face Models Trending

HY-World 2.0 是腾讯开源的跨模态3D世界模型,能够从文本、图像和视频中重建和生成3D世界,生成可编辑的3D资产(网格/高斯泼溅),效果与闭源方法相当。

Odyssey 的 Starchild-1

Product Hunt

Odyssey 发布了 Starchild-1,声称它是首个实时多模态世界模型。