LooseControlVideo：使用空间分块的导演级视频控制

Hugging Face Daily Papers 2026/06/17 00:00 论文

text-to-video 3d-control video-generation spatial-blocking diffusion-models layout-control

摘要

LooseControlVideo 提出了一种框架，用于在文本生成视频中实现直观的3D空间控制，利用稀疏的有向3D框作为代理，实现了卓越的轨迹准确度和遮挡处理。它微调了Wan 2.2骨干网络，并在多个基准上展示了相较于现有方法的显著改进。

在文本生成视频中实现精确的3D空间编排仍然是一个重大挑战，尤其是在多对象场景中，语义布局和时间动态常常纠缠在一起。虽然现有的深度条件模型能够实现良好的结构保真度，但它们需要密集、逐帧精确的指导，这对于涉及可变形物体的动态事件来说，编写起来非常费时。我们提出了LooseControlVideo，这是一个通过使用稀疏、有向的3D框作为“分块”代理来实现直观且富有表现力的控制的框架。这允许用户编写高层布局和轨迹，同时利用视频生成模型生成逼真的遮挡、动态和交互。我们通过在包含DNOCS（一种针对3D大小、方向和深度顺序遮挡的新型编码）注释的视频数据集上微调Wan 2.2骨干网络来实现这一点。此外，我们的方法允许局部细化，例如调整跳跃轨迹或添加交互，而对全局场景上下文的干扰最小。在nuScenes、HO-3D和BEHAVE基准上的广泛评估表明，LooseControlVideo显著优于现有的2D框和基于流的基线。我们的结果显示，与当前最先进的布局条件模型相比，轨迹误差提高了1.2到3倍；刚性运动一致性提高了2倍；遮挡准确度提高了1.5到2倍，这表明有向3D基元为复杂的多智能体视频编写提供了良好的几何先验。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:30

论文页面 - LooseControlVideo：使用空间分块实现导演级视频控制

来源: https://huggingface.co/papers/2606.19495

摘要

LooseControlVideo通过使用稀疏定向3D框作为代理，在文本到视频生成中实现直观的3D空间控制，与现有方法相比，在轨迹精度和遮挡处理方面表现更优。

在文本到视频生成中，精确的3D空间编排仍然是一项重大挑战，尤其是在多对象场景中，语义布局和时间动态常常相互纠缠。现有的深度条件模型虽然能实现良好的结构保真度，但需要密集的、帧级精确的引导，对于涉及可变形对象的动态事件而言，这种引导编写起来非常耗时。我们提出了LooseControlVideo框架，通过使用稀疏、定向的3D框作为“分块”代理，实现直观且富有表现力的控制。这使得用户能够编写高级布局和轨迹，同时利用视频生成模型生成逼真的遮挡、动态和交互。我们通过对一个视频数据集微调Wan 2.2骨干网络来实现这一点，该数据集使用DNOCS（一种针对3D尺寸、方向和深度排序遮挡的新型编码）进行标注。此外，我们的方法允许局部细化，例如调整跳跃轨迹或添加交互，同时最大程度地减少对全局场景上下文的干扰。在nuScenes、HO-3D和BEHAVE基准上的广泛评估表明，LooseControlVideo显著优于现有的2D框和基于流的基线方法。我们的研究结果表明，与当前最先进的布局条件模型相比，轨迹误差提升了1.2倍至3倍；刚体运动一致性提升了2倍；遮挡精度提升了1.5倍至2倍，这表明定向3D基元为复杂的多智能体视频编写提供了良好的几何先验。

查看arXiv页面 (https://arxiv.org/abs/2606.19495)查看PDF (https://arxiv.org/pdf/2606.19495)项目页面 (https://shariqfarooq123.github.io/LooseControlVideo/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.19495)

在你的智能体中获取这篇论文：

hf papers read 2606.19495

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接此论文

在模型的README.md中引用 arxiv.org/abs/2606.19495 以从此页面链接。

引用本论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用 arxiv.org/abs/2606.19495 以从此页面链接。

引用本论文的Space0

没有Space链接此论文

在Space的README.md中引用 arxiv.org/abs/2606.19495 以从此页面链接。

包含本论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

LooseControlVideo：使用空间分块的导演级视频控制

论文页面 - LooseControlVideo：使用空间分块实现导演级视频控制

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的Space0

包含本论文的收藏集0

相似文章

Track2View：通过配对3D点轨迹实现4D一致的相机控制视频生成

LoomVideo：统一多模态输入的视频生成与编辑

SmartDirector: 关键帧条件化的电影视频生成与叙事节奏控制

TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

CogOmniControl: 基于推理的可控视频生成，通过创意意图认知

提交意见反馈