DreamX-World 1.0: 通用交互式世界模型
摘要
DreamX-World 1.0 是一个通用的交互式文本/图像到视频世界模型,支持相机导航、场景持久化和跨多个领域的可提示事件,利用 E-PRoPE、因果强制和记忆条件场景持久化等新技术实现可控的长时程生成。
查看缓存全文
缓存时间: 2026/06/16 11:32
论文页面 - DreamX-World 1.0: 通用交互式世界模型
来源:https://huggingface.co/papers/2606.16993 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
DreamX-World 1.0 是一个交互式文本/图像到视频模型,通过专门的编码、训练技术和优化方法,能够生成长时内容,并支持相机控制和场景持久性。
DreamX-World 1.0 是一个面向可控长时生成的通用交互式文本/图像到视频世界模型。它支持相机导航、回顾之前观察过的区域,以及跨逼真、游戏风格和风格化领域的可提示事件。我们的数据引擎结合了相机精确的 Unreal Engine 渲染、富含动作的游戏录制以及带有恢复相机几何的真实世界视频。在相机控制方面,我们引入了E-PRoPE (https://huggingface.co/papers?q=E-PRoPE),它是projective positional encoding (https://huggingface.co/papers?q=projective%20positional%20encoding)的一个轻量级变体,保留了PRoPE (https://huggingface.co/papers?q=PRoPE)的投影相机几何,同时对空间降维的令牌应用camera-aware attention (https://huggingface.co/papers?q=camera-aware%20attention)。我们通过causal forcing (https://huggingface.co/papers?q=causal%20forcing)、DMD-style distillation (https://huggingface.co/papers?q=DMD-style%20distillation) 和long-rollout training (https://huggingface.co/papers?q=long-rollout%20training),将一个bidirectional video generator (https://huggingface.co/papers?q=bidirectional%20video%20generator)转换成一个几步的自回归世界模型 (https://huggingface.co/papers?q=autoregressive%20world%20model)。在自生成长时上下文上进行训练,使模型暴露于自身生成的历史,从而减少跨自回归块累积的风格和颜色漂移。Memory-Conditioned Scene Persistence (https://huggingface.co/papers?q=Memory-Conditioned%20Scene%20Persistence)通过基于相机几何的检索来获取早期视图,而residual recycling (https://huggingface.co/papers?q=residual%20recycling)则使条件路径对不完美的记忆潜在表示不那么敏感。Event Instruction Tuning (https://huggingface.co/papers?q=Event%20Instruction%20Tuning)增加了可组合的事件控制,reinforcement learning alignment (https://huggingface.co/papers?q=reinforcement%20learning%20alignment)则在蒸馏后恢复相机控制和视觉质量。通过mixed-precision DiT execution (https://huggingface.co/papers?q=mixed-precision%20DiT%20execution)、残差复用、75%裁剪的 VAE 解码以及asynchronous pipeline parallelism (https://huggingface.co/papers?q=asynchronous%20pipeline%20parallelism),DreamX-World 1.0 在八块 RTX 5090 GPU 上可达 16 FPS。在我们的 5 秒基础评估中,DreamX-World 1.0 的相机控制得分为 73.75,总体得分为 84.76,在总体得分上优于 HY-WorldPlay 1.5 和 LingBot-World,后两者分别为 80.79 和 80.45。
查看 arXiv 页面 (https://arxiv.org/abs/2606.16993)查看 PDF (https://arxiv.org/pdf/2606.16993)项目页面 (https://amap-ml.github.io/DreamX_World/)GitHub264 (https://github.com/AMAP-ML/DreamX-World)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16993)
在您的代理中获取此论文:
hf papers read 2606\.16993
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型1
GD-ML/DreamX-World-5B 图像到视频• 5B• 更新于约4小时前 • 1 (https://huggingface.co/GD-ML/DreamX-World-5B)
引用此论文的数据集0
没有与此论文链接的数据集
请在数据集 README.md 中引用 arxiv.org/abs/2606.16993 以从此页面链接。
引用此论文的 Space0
没有与此论文链接的 Space
请在 Space README.md 中引用 arxiv.org/abs/2606.16993 以从此页面链接。
包含此论文的收藏2
相似文章
HY-World 2.0:用于重建、生成和模拟三维世界的多模态世界模型
HY-World 2.0 是一个多模态世界模型框架,通过全景生成、轨迹规划和场景组合等专用模块,从文本、图像和视频中生成高保真度的三维高斯泼溅场景,在开源方法中实现了最先进的性能。
Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界建模
Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。
tencent/HY-World-2.0
HY-World 2.0 是腾讯开源的跨模态3D世界模型,能够从文本、图像和视频中重建和生成3D世界,生成可编辑的3D资产(网格/高斯泼溅),效果与闭源方法相当。
ActWorld:从可探索到可交互的世界模型——基于动作感知记忆
ActWorld提出了一种分块自回归世界模型,具有层次化动作感知记忆,支持物体交互与导航,解决了现有交互世界模型中的数据和记忆瓶颈问题。
Odyssey 的 Starchild-1
Odyssey 发布了 Starchild-1,声称它是首个实时多模态世界模型。