LooseControlVideo:使用空间分块的导演级视频控制

Hugging Face Daily Papers 论文

摘要

LooseControlVideo 提出了一种框架,用于在文本生成视频中实现直观的3D空间控制,利用稀疏的有向3D框作为代理,实现了卓越的轨迹准确度和遮挡处理。它微调了Wan 2.2骨干网络,并在多个基准上展示了相较于现有方法的显著改进。

在文本生成视频中实现精确的3D空间编排仍然是一个重大挑战,尤其是在多对象场景中,语义布局和时间动态常常纠缠在一起。虽然现有的深度条件模型能够实现良好的结构保真度,但它们需要密集、逐帧精确的指导,这对于涉及可变形物体的动态事件来说,编写起来非常费时。我们提出了LooseControlVideo,这是一个通过使用稀疏、有向的3D框作为“分块”代理来实现直观且富有表现力的控制的框架。这允许用户编写高层布局和轨迹,同时利用视频生成模型生成逼真的遮挡、动态和交互。我们通过在包含DNOCS(一种针对3D大小、方向和深度顺序遮挡的新型编码)注释的视频数据集上微调Wan 2.2骨干网络来实现这一点。此外,我们的方法允许局部细化,例如调整跳跃轨迹或添加交互,而对全局场景上下文的干扰最小。在nuScenes、HO-3D和BEHAVE基准上的广泛评估表明,LooseControlVideo显著优于现有的2D框和基于流的基线。我们的结果显示,与当前最先进的布局条件模型相比,轨迹误差提高了1.2到3倍;刚性运动一致性提高了2倍;遮挡准确度提高了1.5到2倍,这表明有向3D基元为复杂的多智能体视频编写提供了良好的几何先验。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:30

论文页面 - LooseControlVideo:使用空间分块实现导演级视频控制

来源: https://huggingface.co/papers/2606.19495

摘要

LooseControlVideo通过使用稀疏定向3D框作为代理,在文本到视频生成中实现直观的3D空间控制,与现有方法相比,在轨迹精度和遮挡处理方面表现更优。

在文本到视频生成中,精确的3D空间编排仍然是一项重大挑战,尤其是在多对象场景中,语义布局和时间动态常常相互纠缠。现有的深度条件模型虽然能实现良好的结构保真度,但需要密集的、帧级精确的引导,对于涉及可变形对象的动态事件而言,这种引导编写起来非常耗时。我们提出了LooseControlVideo框架,通过使用稀疏、定向的3D框作为“分块”代理,实现直观且富有表现力的控制。这使得用户能够编写高级布局和轨迹,同时利用视频生成模型生成逼真的遮挡、动态和交互。我们通过对一个视频数据集微调Wan 2.2骨干网络来实现这一点,该数据集使用DNOCS(一种针对3D尺寸、方向和深度排序遮挡的新型编码)进行标注。此外,我们的方法允许局部细化,例如调整跳跃轨迹或添加交互,同时最大程度地减少对全局场景上下文的干扰。在nuScenes、HO-3D和BEHAVE基准上的广泛评估表明,LooseControlVideo显著优于现有的2D框和基于流的基线方法。我们的研究结果表明,与当前最先进的布局条件模型相比,轨迹误差提升了1.2倍至3倍;刚体运动一致性提升了2倍;遮挡精度提升了1.5倍至2倍,这表明定向3D基元为复杂的多智能体视频编写提供了良好的几何先验。

查看arXiv页面 (https://arxiv.org/abs/2606.19495)查看PDF (https://arxiv.org/pdf/2606.19495)项目页面 (https://shariqfarooq123.github.io/LooseControlVideo/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.19495)

在你的智能体中获取这篇论文:

hf papers read 2606.19495

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

没有模型链接此论文

在模型的README.md中引用 arxiv.org/abs/2606.19495 以从此页面链接。

引用本论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用 arxiv.org/abs/2606.19495 以从此页面链接。

引用本论文的Space0

没有Space链接此论文

在Space的README.md中引用 arxiv.org/abs/2606.19495 以从此页面链接。

包含本论文的收藏集0

没有收藏集包含此论文

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

LoomVideo:统一多模态输入的视频生成与编辑

Hugging Face Daily Papers

LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。

TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

Hugging Face Daily Papers

TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。

CogOmniControl: 基于推理的可控视频生成,通过创意意图认知

Hugging Face Daily Papers

CogOmniControl是一个基于推理的可控视频生成框架,它使用在动画制作数据上训练的专业视觉语言模型(CogVLM)从稀疏条件中推断创意意图,然后通过强化学习引导基于扩散的生成器,在新基准上取得最先进的结果。