LooseControlVideo:使用空间分块的导演级视频控制
摘要
LooseControlVideo 提出了一种框架,用于在文本生成视频中实现直观的3D空间控制,利用稀疏的有向3D框作为代理,实现了卓越的轨迹准确度和遮挡处理。它微调了Wan 2.2骨干网络,并在多个基准上展示了相较于现有方法的显著改进。
查看缓存全文
缓存时间: 2026/06/20 14:30
论文页面 - LooseControlVideo:使用空间分块实现导演级视频控制
来源: https://huggingface.co/papers/2606.19495
摘要
LooseControlVideo通过使用稀疏定向3D框作为代理,在文本到视频生成中实现直观的3D空间控制,与现有方法相比,在轨迹精度和遮挡处理方面表现更优。
在文本到视频生成中,精确的3D空间编排仍然是一项重大挑战,尤其是在多对象场景中,语义布局和时间动态常常相互纠缠。现有的深度条件模型虽然能实现良好的结构保真度,但需要密集的、帧级精确的引导,对于涉及可变形对象的动态事件而言,这种引导编写起来非常耗时。我们提出了LooseControlVideo框架,通过使用稀疏、定向的3D框作为“分块”代理,实现直观且富有表现力的控制。这使得用户能够编写高级布局和轨迹,同时利用视频生成模型生成逼真的遮挡、动态和交互。我们通过对一个视频数据集微调Wan 2.2骨干网络来实现这一点,该数据集使用DNOCS(一种针对3D尺寸、方向和深度排序遮挡的新型编码)进行标注。此外,我们的方法允许局部细化,例如调整跳跃轨迹或添加交互,同时最大程度地减少对全局场景上下文的干扰。在nuScenes、HO-3D和BEHAVE基准上的广泛评估表明,LooseControlVideo显著优于现有的2D框和基于流的基线方法。我们的研究结果表明,与当前最先进的布局条件模型相比,轨迹误差提升了1.2倍至3倍;刚体运动一致性提升了2倍;遮挡精度提升了1.5倍至2倍,这表明定向3D基元为复杂的多智能体视频编写提供了良好的几何先验。
查看arXiv页面 (https://arxiv.org/abs/2606.19495)查看PDF (https://arxiv.org/pdf/2606.19495)项目页面 (https://shariqfarooq123.github.io/LooseControlVideo/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.19495)
在你的智能体中获取这篇论文:
hf papers read 2606.19495
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
没有模型链接此论文
在模型的README.md中引用 arxiv.org/abs/2606.19495 以从此页面链接。
引用本论文的数据集0
没有数据集链接此论文
在数据集的README.md中引用 arxiv.org/abs/2606.19495 以从此页面链接。
引用本论文的Space0
没有Space链接此论文
在Space的README.md中引用 arxiv.org/abs/2606.19495 以从此页面链接。
包含本论文的收藏集0
没有收藏集包含此论文
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
Track2View:通过配对3D点轨迹实现4D一致的相机控制视频生成
Track2View 通过将视频扩散转换器基于配对3D点轨迹进行条件生成,从视频中生成新的相机视角,实现了最先进的视觉质量,并显著降低了旋转和平移误差。
LoomVideo:统一多模态输入的视频生成与编辑
LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。
SmartDirector: 关键帧条件化的电影视频生成与叙事节奏控制
SmartDirector是一个通过多关键帧增强视频生成的框架,旨在改善叙事结构和时间节奏,采用低分辨率生成和高分辨率优化的两阶段流程。
TrackCraft3R: 改造视频扩散变换器用于密集3D追踪
TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。
CogOmniControl: 基于推理的可控视频生成,通过创意意图认知
CogOmniControl是一个基于推理的可控视频生成框架,它使用在动画制作数据上训练的专业视觉语言模型(CogVLM)从稀疏条件中推断创意意图,然后通过强化学习引导基于扩散的生成器,在新基准上取得最先进的结果。