行走于隐空间:基于神经场景表示的交互式世界探索
摘要
NeuWorld 是一个新的交互式视频生成系统,它利用紧凑的神经隐式场景表示以及结合扩散变换器的变换器VAE,实现轨迹条件渲染,达到长时一致性。
查看缓存全文
缓存时间: 2026/06/30 07:35
Paper page - Walking in the Implicit: Interactive World Exploration via Neural Scene Representation
来源:https://huggingface.co/papers/2606.30045
摘要
NeuWorld 通过将场景表示为紧凑的神经隐式状态,并利用 Transformer VAE 与扩散 Transformer 进行轨迹条件渲染,实现了高效的交互式视频生成。
用于相机控制的世界探索的交互式视频生成系统会逐步扩展潜视频帧序列,将状态转换与高频观测合成纠缠在一起。我们提出 Walking in the Implicit,这是一种以场景为中心的范式,将滚动变量从帧潜在变量更改为固定长度、可渲染的隐式状态,称为神经隐式场景(NIS)。这使交互式生成分解为紧凑场景状态的随机转换和给定采样状态下的确定性姿态条件渲染。我们将该范式实例化为 NeuWorld:一个 Transformer VAE 从稀疏的姿态帧中学习局部锚定的 NIS,一个扩散 Transformer 在给定未来相机轨迹和基于几何感知检索的历史信息的条件下演化 NIS。通过重用 VAE 编码器作为统一的条件器,NeuWorld 将相机、参考图像和历史线索映射到同一 NIS 模态,避免了外部异构编码器。NeuWorld 在公开的姿态视图数据上从头训练,无需预训练的视频主干或辅助 3D 重建器,即可实现强大的长程一致性,并具有较高的推理效率。
查看 arXiv 页面 (https://arxiv.org/abs/2606.30045)查看 PDF (https://arxiv.org/pdf/2606.30045)项目页面 (https://lizhiqi49.github.io/NeuWorld)GitHub17 (https://github.com/WU-CVGL/NeuWorld)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.30045)
在你的 Agent 中获取此论文:
hf papers read 2606\.30045
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.30045 以从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.30045 以从此页面链接。
引用此论文的空间0
没有空间链接到此论文
在空间 README.md 中引用 arxiv.org/abs/2606.30045 以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
用于视频世界模型的潜在空间记忆
本文介绍了用于视频世界模型的潜在空间记忆,将3D场景信息直接存储在扩散潜在空间中,以避免昂贵的像素空间重建。所提出的Mirage框架实现了高达10.57倍的生成加速和55倍的内存缩减,同时在WorldScore和RealEstate10K上取得了最先进的性能。
Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界建模
Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。
NVIDIA OmniDreams:用于闭环自动驾驶仿真的实时生成式世界模型
NVIDIA推出OmniDreams,这是一个基于Cosmos扩散模型构建的生成式世界模型,用于实时动作条件视频生成,能够在复杂的未见场景中实现自动驾驶策略评估的闭环仿真。
世界-动作交互模型的DAWN
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。
通过残差潜在动作学习基于视觉特征的世界模型
本文介绍了 RLA-WM,一种基于视觉特征的世界模型,该模型利用残差潜在动作与流匹配技术高效预测未来视觉状态。该方法性能优于现有的视频扩散与特征基方法,同时支持从离线、无动作演示视频中探索新型机器人学习技术。