Warp-as-History:基于单个训练视频的可泛化相机控制视频生成
摘要
Warp-as-History 提出了一种新颖的接口,将相机引起的扭曲转换为伪历史表示,使冻结的视频生成模型无需训练或测试时优化即可遵循相机轨迹。在单个视频上进行轻量级 LoRA 微调可进一步提高相机遵从性并泛化到未见过的视频。
查看缓存全文
缓存时间: 2026/05/15 04:23
论文页面 - Warp-as-History: 仅需一个训练视频即可实现泛化相机控制视频生成
来源:https://huggingface.co/papers/2605.15182
摘要
一种名为 Warp-as-History 的新方法,通过将相机诱导的形变转换为伪历史表示,实现无需训练或测试时优化的零样本能力,从而完成相机控制视频生成。
相机控制视频生成 已取得显著进展,使生成的视频能够遵循指定的视角轨迹。然而,现有方法通常通过学习特定相机的条件,例如相机编码器、控制分支,或修改注意力与位置编码,这往往需要在大量带相机标注的视频上进行后训练。免训练替代方案虽避免了此类后训练,但常将代价转移至测试时优化或额外的去噪时引导。我们提出 Warp-as-History,一个简单的接口,通过 目标帧位置对齐 和 可见令牌选择,将 相机诱导的形变 转化为 相机形变伪历史。给定目标相机轨迹,我们从过去观察中构建相机形变伪历史,并将其输入模型的 视觉历史路径。关键在于,我们将其 位置编码 与正在去噪的目标帧对齐,并移除没有有效源观察的形变历史令牌。无需任何训练、架构修改或测试时优化,这一接口便揭示了冻结的 视频生成 模型遵循相机轨迹的非平凡 零样本能力。此外,仅在一个带相机标注的视频上进行轻量级离线 LoRA 微调,便可进一步提升此项能力并泛化到未见视频,在无需测试时优化或目标视频适配的情况下,改善相机遵循度、视觉质量和运动动态。在多种数据集上的大量实验证实了我们方法的有效性。
查看 arXiv 页面 (https://arxiv.org/abs/2605.15182)
查看 PDF (https://arxiv.org/pdf/2605.15182)
项目页面 (https://yyfz.github.io/warp-as-history/)
GitHub16 (https://github.com/yyfz/Warp-as-History)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15182)
在你的 agent 中获取此论文:
hf papers read 2605\.15182
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.15182 以从此页面关联。
引用此论文的数据集 0
没有数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.15182 以从此页面关联。
引用此论文的 Spaces 0
没有 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.15182 以从此页面关联。
包含此论文的收藏集 0
没有收藏集包含此论文
请将本论文添加到 收藏集 以从此页面关联。
相似文章
LoomVideo:统一多模态输入的视频生成与编辑
LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。
LooseControlVideo:使用空间分块的导演级视频控制
LooseControlVideo 提出了一种框架,用于在文本生成视频中实现直观的3D空间控制,利用稀疏的有向3D框作为代理,实现了卓越的轨迹准确度和遮挡处理。它微调了Wan 2.2骨干网络,并在多个基准上展示了相较于现有方法的显著改进。
Track2View:通过配对3D点轨迹实现4D一致的相机控制视频生成
Track2View 通过将视频扩散转换器基于配对3D点轨迹进行条件生成,从视频中生成新的相机视角,实现了最先进的视觉质量,并显著降低了旋转和平移误差。
Holo-World:面向视频世界模型的统一相机、物体与天气控制
Holo-World 提出了一种统一的可控视频世界模型,能够从单张图像生成视频,并显式控制相机、物体运动与天气。该工作引入了一个新颖的数据集与技术,可在将场景迁移至目标天气状态的同时保持场景结构。
PermaVid: 通过解耦上下文记忆实现编辑间一致的视频生成
PermaVid 引入了一种多模态上下文记忆,将外观和几何结构解耦,从而在编辑操作后保持长期视频一致性,超越了此前的方法。