Go-with-the-Track: 基于点追踪的视频合成与运动控制
摘要
Go-with-the-Track 使用点轨迹嵌入与空间感知编码及视频扩散变压器,统一了视频生成中的运动控制与参考图像合成,在单一模型中实现了卓越的运动与参考控制。
查看缓存全文
缓存时间: 2026/06/23 17:43
论文页面 - Go-with-the-Track:基于点轨迹跟踪的视频合成与运动控制
来源:https://huggingface.co/papers/2606.20891
作者:
,
,
,
,
,
,
,
,
,
,
摘要
Go-with-the-Track 通过使用具有空间感知编码的点轨迹嵌入(point-track embeddings)与视频扩散变换器(video diffusion transformers),将视频生成中的运动控制与参考图像合成统一起来。
电影制作需要精确的运动控制和参考图像合成——这是现有方法分别处理的能力。基于点轨迹条件的图像到视频模型(Point-track-conditioned image-to-video models)将内容插入限制在第一帧,而参考到视频模型(reference-to-video models)则缺乏对参考内容在帧之间如何整合的细粒度时空控制。我们提出了 Go-with-the-Track,它通过联合基于多个参考图像和参考锚定点轨迹(reference-anchored point-tracks)的条件化,将这两种能力统一起来——将传统点轨迹扩展为在生成帧与参考图像之间显式建立对应关系,从而在整个视频中实现精确的合成和运动控制。为实现这一目标,我们引入了空间感知点轨迹嵌入(spatially-aware point-track embeddings),该嵌入利用坐标级 MLP(coordinate-wise MLP)后接时间池化(temporal pooling)来编码完整的点轨迹坐标序列。这种表示捕捉了每条点轨迹的空间特征(作为唯一标识符),同时嵌入相似性与空间邻近度直接相关,从而增强了模型区分和关联点轨迹的能力。我们通过轻量级适配器(lightweight adapter)将这些点轨迹嵌入注入视频扩散变换器(video diffusion transformer),解决了像素与补丁分辨率不匹配(pixel-to-patch resolution mismatch)的问题,同时避免了朴素点轨迹下采样中固有的显著运动细节丢失。我们采用混合训练策略(hybrid training strategy)在动态、静态和合成场景视频数据集上联合训练,以增强运动可控性(motion controllability)。实验表明,Go-with-the-Track 在单一模型中实现了卓越的运动和参考控制,并启用新能力:多参考条件视频生成(multi-reference conditioned video generation)结合基于点轨迹驱动的合成,以及相机控制(camera control)同时适用于静态和动态场景。
项目页面:https://eyeline-labs.github.io/Go-with-the-Track/
查看 arXiv 页面 (https://arxiv.org/abs/2606.20891) | 查看 PDF (https://arxiv.org/pdf/2606.20891) | 项目页面 (https://eyeline-labs.github.io/Go-with-the-Track/) | GitHub (https://github.com/Eyeline-Labs/Go-with-the-Track) | 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2606.20891)
在您的 Agent 中获取此论文:
hf papers read 2606.20891
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.20891 以将其从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.20891 以将其从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.20891 以将其从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以将其从此页面链接。
相似文章
Track2View:通过配对3D点轨迹实现4D一致的相机控制视频生成
Track2View 通过将视频扩散转换器基于配对3D点轨迹进行条件生成,从视频中生成新的相机视角,实现了最先进的视觉质量,并显著降低了旋转和平移误差。
TrackCraft3R: 改造视频扩散变换器用于密集3D追踪
TrackCraft3R 改造视频扩散变换器,用于从单目视频进行密集3D追踪。它采用双潜在表示和时间RoPE对齐,以比先前方法快1.3倍的速度和少4.6倍的峰值内存,实现了最先进的性能。
LooseControlVideo:使用空间分块的导演级视频控制
LooseControlVideo 提出了一种框架,用于在文本生成视频中实现直观的3D空间控制,利用稀疏的有向3D框作为代理,实现了卓越的轨迹准确度和遮挡处理。它微调了Wan 2.2骨干网络,并在多个基准上展示了相较于现有方法的显著改进。
MotiMotion:基于视觉推理的运动控制视频生成
MotiMotion提出了一种先推理后生成的框架,用于运动控制的视频生成。该框架利用视觉语言推理来优化运动轨迹,并采用置信度感知的控制方案来提高合理性,在新基准上优于现有方法。
CogOmniControl: 基于推理的可控视频生成,通过创意意图认知
CogOmniControl是一个基于推理的可控视频生成框架,它使用在动画制作数据上训练的专业视觉语言模型(CogVLM)从稀疏条件中推断创意意图,然后通过强化学习引导基于扩散的生成器,在新基准上取得最先进的结果。