DreamX-World 1.0: 通用交互式世界模型

Hugging Face Daily Papers 2026/06/15 00:00 论文

world-model video-generation interactive camera-control long-horizon diffusion-transformer

摘要

DreamX-World 1.0 是一个通用的交互式文本/图像到视频世界模型，支持相机导航、场景持久化和跨多个领域的可提示事件，利用 E-PRoPE、因果强制和记忆条件场景持久化等新技术实现可控的长时程生成。

DreamX-World 1.0 是一个通用的交互式文本/图像到视频世界模型，用于可控长时程生成。它支持相机导航、重新访问之前观察过的区域，以及逼真、游戏风格和风格化领域中的可提示事件。我们的数据引擎结合了相机精确的虚幻引擎渲染、富含动作的游戏录制以及带有恢复相机几何结构的真实世界视频。在相机控制方面，我们引入了 E-PRoPE，这是一种轻量级的投影位置编码变体，它在保留 PRoPE 的投影相机几何结构的同时，对空间减少的 token 应用相机感知注意力。我们通过因果强制、DMD 风格蒸馏和长序列训练，将双向视频生成器转换为几步自回归世界模型。在自生成的长时程上下文上进行训练，使模型暴露于自身生成的历史中，并减少在自回归块中累积的风格和颜色漂移。记忆条件场景持久化通过基于相机几何的检索来获取早期视图，而残差回收使条件化路径对不完美的记忆潜在变量不那么敏感。事件指令调优添加了可组合的事件控制，强化学习对齐则恢复了蒸馏后的相机控制和视觉质量。通过混合精度 DiT 执行、残差重用、75% 剪枝的 VAE 解码和异步流水线并行，DreamX-World 1.0 在八块 RTX 5090 GPU 上达到高达 16 FPS。在我们的 5 秒基础评估中，DreamX-World 1.0 的相机控制得分为 73.75，总体得分为 84.76，在总体得分上优于 HY-WorldPlay 1.5（80.79）和 LingBot-World（80.45）。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:32

论文页面 - DreamX-World 1.0: 通用交互式世界模型

来源：https://huggingface.co/papers/2606.16993 作者：

摘要

DreamX-World 1.0 是一个交互式文本/图像到视频模型，通过专门的编码、训练技术和优化方法，能够生成长时内容，并支持相机控制和场景持久性。

DreamX-World 1.0 是一个面向可控长时生成的通用交互式文本/图像到视频世界模型。它支持相机导航、回顾之前观察过的区域，以及跨逼真、游戏风格和风格化领域的可提示事件。我们的数据引擎结合了相机精确的 Unreal Engine 渲染、富含动作的游戏录制以及带有恢复相机几何的真实世界视频。在相机控制方面，我们引入了E-PRoPE (https://huggingface.co/papers?q=E-PRoPE)，它是projective positional encoding (https://huggingface.co/papers?q=projective%20positional%20encoding)的一个轻量级变体，保留了PRoPE (https://huggingface.co/papers?q=PRoPE)的投影相机几何，同时对空间降维的令牌应用camera-aware attention (https://huggingface.co/papers?q=camera-aware%20attention)。我们通过causal forcing (https://huggingface.co/papers?q=causal%20forcing)、DMD-style distillation (https://huggingface.co/papers?q=DMD-style%20distillation) 和long-rollout training (https://huggingface.co/papers?q=long-rollout%20training)，将一个bidirectional video generator (https://huggingface.co/papers?q=bidirectional%20video%20generator)转换成一个几步的自回归世界模型 (https://huggingface.co/papers?q=autoregressive%20world%20model)。在自生成长时上下文上进行训练，使模型暴露于自身生成的历史，从而减少跨自回归块累积的风格和颜色漂移。Memory-Conditioned Scene Persistence (https://huggingface.co/papers?q=Memory-Conditioned%20Scene%20Persistence)通过基于相机几何的检索来获取早期视图，而residual recycling (https://huggingface.co/papers?q=residual%20recycling)则使条件路径对不完美的记忆潜在表示不那么敏感。Event Instruction Tuning (https://huggingface.co/papers?q=Event%20Instruction%20Tuning)增加了可组合的事件控制，reinforcement learning alignment (https://huggingface.co/papers?q=reinforcement%20learning%20alignment)则在蒸馏后恢复相机控制和视觉质量。通过mixed-precision DiT execution (https://huggingface.co/papers?q=mixed-precision%20DiT%20execution)、残差复用、75%裁剪的 VAE 解码以及asynchronous pipeline parallelism (https://huggingface.co/papers?q=asynchronous%20pipeline%20parallelism)，DreamX-World 1.0 在八块 RTX 5090 GPU 上可达 16 FPS。在我们的 5 秒基础评估中，DreamX-World 1.0 的相机控制得分为 73.75，总体得分为 84.76，在总体得分上优于 HY-WorldPlay 1.5 和 LingBot-World，后两者分别为 80.79 和 80.45。

查看 arXiv 页面 (https://arxiv.org/abs/2606.16993)查看 PDF (https://arxiv.org/pdf/2606.16993)项目页面 (https://amap-ml.github.io/DreamX_World/)GitHub264 (https://github.com/AMAP-ML/DreamX-World)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16993)

在您的代理中获取此论文：

hf papers read 2606\.16993

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型1

GD-ML/DreamX-World-5B 图像到视频• 5B• 更新于约4小时前 • 1 (https://huggingface.co/GD-ML/DreamX-World-5B)

引用此论文的数据集0

没有与此论文链接的数据集

请在数据集 README.md 中引用 arxiv.org/abs/2606.16993 以从此页面链接。

引用此论文的 Space0

没有与此论文链接的 Space

请在 Space README.md 中引用 arxiv.org/abs/2606.16993 以从此页面链接。

DreamX-World 1.0: 通用交互式世界模型

论文页面 - DreamX-World 1.0: 通用交互式世界模型

摘要

引用此论文的模型1

GD-ML/DreamX-World-5B 图像到视频• 5B• 更新于约4小时前 • 1 (https://huggingface.co/GD-ML/DreamX-World-5B)

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏2

相似文章

HY-World 2.0：用于重建、生成和模拟三维世界的多模态世界模型

Qwen-RobotWorld技术报告：通过语言条件视频生成统一具身世界建模

tencent/HY-World-2.0

ActWorld：从可探索到可交互的世界模型——基于动作感知记忆

Odyssey 的 Starchild-1

提交意见反馈