行走于隐空间：基于神经场景表示的交互式世界探索

Hugging Face Daily Papers 2026/06/29 00:00 论文

摘要

NeuWorld 是一个新的交互式视频生成系统，它利用紧凑的神经隐式场景表示以及结合扩散变换器的变换器VAE，实现轨迹条件渲染，达到长时一致性。

用于相机控制的世界探索的交互式视频生成系统会逐步展开不断增长的潜在视频帧序列，将状态转换与高频观测合成纠缠在一起。我们提出“行走于隐空间”这一以场景为中心的范式，将展开变量从帧潜在表示更改为固定长度、可渲染的隐式状态，称为神经隐式场景（NIS）。这将交互式生成分解为紧凑场景状态的随机转换和基于采样状态的确定性姿态条件渲染。我们将该范式实例化为 NeuWorld：一个变换器VAE从稀疏的带姿态帧中学习局部锚定的NIS，而一个扩散变换器在基于未来相机轨迹和几何感知的历史检索条件下演化NIS。通过复用VAE编码器作为统一的条件器，NeuWorld将相机、参考图像和历史线索映射到相同的NIS模态，避免了外部异构编码器。NeuWorld在公开的带姿态视图数据上从零开始训练，无需预训练的视频主干或辅助3D重建器，实现了强大的长时一致性并具有高效的推理性能。

查看原文

查看缓存全文

缓存时间: 2026/06/30 07:35

Paper page - Walking in the Implicit: Interactive World Exploration via Neural Scene Representation

来源：https://huggingface.co/papers/2606.30045

摘要

NeuWorld 通过将场景表示为紧凑的神经隐式状态，并利用 Transformer VAE 与扩散 Transformer 进行轨迹条件渲染，实现了高效的交互式视频生成。

用于相机控制的世界探索的交互式视频生成系统会逐步扩展潜视频帧序列，将状态转换与高频观测合成纠缠在一起。我们提出 Walking in the Implicit，这是一种以场景为中心的范式，将滚动变量从帧潜在变量更改为固定长度、可渲染的隐式状态，称为神经隐式场景（NIS）。这使交互式生成分解为紧凑场景状态的随机转换和给定采样状态下的确定性姿态条件渲染。我们将该范式实例化为 NeuWorld：一个 Transformer VAE 从稀疏的姿态帧中学习局部锚定的 NIS，一个扩散 Transformer 在给定未来相机轨迹和基于几何感知检索的历史信息的条件下演化 NIS。通过重用 VAE 编码器作为统一的条件器，NeuWorld 将相机、参考图像和历史线索映射到同一 NIS 模态，避免了外部异构编码器。NeuWorld 在公开的姿态视图数据上从头训练，无需预训练的视频主干或辅助 3D 重建器，即可实现强大的长程一致性，并具有较高的推理效率。

查看 arXiv 页面 (https://arxiv.org/abs/2606.30045)查看 PDF (https://arxiv.org/pdf/2606.30045)项目页面 (https://lizhiqi49.github.io/NeuWorld)GitHub17 (https://github.com/WU-CVGL/NeuWorld)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.30045)

在你的 Agent 中获取此论文：

hf papers read 2606\.30045

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.30045 以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.30045 以从此页面链接。

引用此论文的空间0

没有空间链接到此论文

在空间 README.md 中引用 arxiv.org/abs/2606.30045 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

行走于隐空间：基于神经场景表示的交互式世界探索

Paper page - Walking in the Implicit: Interactive World Exploration via Neural Scene Representation

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的空间0

包含此论文的收藏0

相似文章

用于视频世界模型的潜在空间记忆

Qwen-RobotWorld技术报告：通过语言条件视频生成统一具身世界建模

NVIDIA OmniDreams：用于闭环自动驾驶仿真的实时生成式世界模型

世界-动作交互模型的DAWN

通过残差潜在动作学习基于视觉特征的世界模型

提交意见反馈