Go-with-the-Track: 基于点追踪的视频合成与运动控制

Hugging Face Daily Papers 2026/06/18 00:00 论文

video-generation motion-control point-tracking diffusion-transformer image-to-video compositing

摘要

Go-with-the-Track 使用点轨迹嵌入与空间感知编码及视频扩散变压器，统一了视频生成中的运动控制与参考图像合成，在单一模型中实现了卓越的运动与参考控制。

电影制作需要精确的运动控制与参考图像合成——现有方法将它们分开处理。基于点轨迹条件约束的图像到视频模型将内容插入限制在第一帧，而参考图像到视频模型缺乏对参考内容如何在帧间整合的细粒度时空控制。我们提出 Go-with-the-Track，通过联合条件约束多个参考图像和参考锚定点轨迹，统一了这两种能力——将传统点轨迹扩展为显式建立生成帧与参考图像之间的对应关系，从而在整个视频中实现精确的合成与运动控制。为实现这一点，我们引入了空间感知点轨迹嵌入，它使用坐标级MLP后接时间池化来编码点轨迹坐标的完整序列。该表示捕捉了每个点轨迹的空间特征（作为唯一标识符），而嵌入相似度与空间邻近性直接相关，增强了模型区分和关联点轨迹的能力。我们通过轻量适配器将这些点轨迹嵌入注入视频扩散变压器，解决了像素到补丁的分辨率不匹配问题，同时避免了朴素点轨迹子采样中固有的显著运动细节损失。我们采用混合训练策略，在动态、静态和合成场景视频数据集上联合训练，以提升运动可控性。实验表明，Go-with-the-Track 在单一模型中实现了卓越的运动与参考控制，并支持新能力：基于点轨迹驱动的多参考条件视频生成，以及静态与动态场景的相机控制。项目页面：https://eyeline-labs.github.io/Go-with-the-Track/

查看原文

查看缓存全文

缓存时间: 2026/06/23 17:43

论文页面 - Go-with-the-Track：基于点轨迹跟踪的视频合成与运动控制

来源：https://huggingface.co/papers/2606.20891

作者：

，

摘要

Go-with-the-Track 通过使用具有空间感知编码的点轨迹嵌入（point-track embeddings）与视频扩散变换器（video diffusion transformers），将视频生成中的运动控制与参考图像合成统一起来。

电影制作需要精确的运动控制和参考图像合成——这是现有方法分别处理的能力。基于点轨迹条件的图像到视频模型（Point-track-conditioned image-to-video models）将内容插入限制在第一帧，而参考到视频模型（reference-to-video models）则缺乏对参考内容在帧之间如何整合的细粒度时空控制。我们提出了 Go-with-the-Track，它通过联合基于多个参考图像和参考锚定点轨迹（reference-anchored point-tracks）的条件化，将这两种能力统一起来——将传统点轨迹扩展为在生成帧与参考图像之间显式建立对应关系，从而在整个视频中实现精确的合成和运动控制。为实现这一目标，我们引入了空间感知点轨迹嵌入（spatially-aware point-track embeddings），该嵌入利用坐标级 MLP（coordinate-wise MLP）后接时间池化（temporal pooling）来编码完整的点轨迹坐标序列。这种表示捕捉了每条点轨迹的空间特征（作为唯一标识符），同时嵌入相似性与空间邻近度直接相关，从而增强了模型区分和关联点轨迹的能力。我们通过轻量级适配器（lightweight adapter）将这些点轨迹嵌入注入视频扩散变换器（video diffusion transformer），解决了像素与补丁分辨率不匹配（pixel-to-patch resolution mismatch）的问题，同时避免了朴素点轨迹下采样中固有的显著运动细节丢失。我们采用混合训练策略（hybrid training strategy）在动态、静态和合成场景视频数据集上联合训练，以增强运动可控性（motion controllability）。实验表明，Go-with-the-Track 在单一模型中实现了卓越的运动和参考控制，并启用新能力：多参考条件视频生成（multi-reference conditioned video generation）结合基于点轨迹驱动的合成，以及相机控制（camera control）同时适用于静态和动态场景。

项目页面：https://eyeline-labs.github.io/Go-with-the-Track/

查看 arXiv 页面 (https://arxiv.org/abs/2606.20891) | 查看 PDF (https://arxiv.org/pdf/2606.20891) | 项目页面 (https://eyeline-labs.github.io/Go-with-the-Track/) | GitHub (https://github.com/Eyeline-Labs/Go-with-the-Track) | 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2606.20891)

在您的 Agent 中获取此论文：

hf papers read 2606.20891

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.20891 以将其从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.20891 以将其从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.20891 以将其从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以将其从此页面链接。

Go-with-the-Track: 基于点追踪的视频合成与运动控制

论文页面 - Go-with-the-Track：基于点轨迹跟踪的视频合成与运动控制

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏集0

相似文章

Track2View：通过配对3D点轨迹实现4D一致的相机控制视频生成

TrackCraft3R: 改造视频扩散变换器用于密集3D追踪

LooseControlVideo：使用空间分块的导演级视频控制

MotiMotion：基于视觉推理的运动控制视频生成

CogOmniControl: 基于推理的可控视频生成，通过创意意图认知

提交意见反馈