Warp-as-History:基于单个训练视频的可泛化相机控制视频生成

Hugging Face Daily Papers 论文

摘要

Warp-as-History 提出了一种新颖的接口,将相机引起的扭曲转换为伪历史表示,使冻结的视频生成模型无需训练或测试时优化即可遵循相机轨迹。在单个视频上进行轻量级 LoRA 微调可进一步提高相机遵从性并泛化到未见过的视频。

相机控制视频生成已取得显著进展,使生成的视频能够遵循指定的视角轨迹。然而,现有方法通常通过相机编码器、控制分支或注意力与位置编码修改来学习相机特定条件,这通常需要对大规模相机标注视频进行后训练。无需训练的替代方法避免了这种后训练,但往往将成本转移到测试时优化或额外的去噪时引导。我们提出 Warp-as-History,这是一种简单的接口,通过目标帧位置对齐和可见令牌选择,将相机诱导的扭曲转换为相机扭曲的伪历史。给定目标相机轨迹,我们从过去的观察中构建相机扭曲的伪历史,并通过模型的视觉历史路径输入。关键在于,我们将其位置编码与正在去噪的目标帧对齐,并移除没有有效源观测的扭曲历史令牌。无需任何训练、架构修改或测试时优化,该接口揭示了冻结视频生成模型遵循相机轨迹的非平凡零样本能力。此外,仅在一个相机标注视频上进行轻量级离线 LoRA 微调,进一步提高了这种能力,并泛化到未见过的视频,从而在不进行测试时优化或目标视频适应的情况下,改善了相机遵从性、视觉质量和运动动态。在多样化数据集上的大量实验证实了我们的方法的有效性。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - Warp-as-History: 仅需一个训练视频即可实现泛化相机控制视频生成

来源:https://huggingface.co/papers/2605.15182

摘要

一种名为 Warp-as-History 的新方法,通过将相机诱导的形变转换为伪历史表示,实现无需训练或测试时优化的零样本能力,从而完成相机控制视频生成。

相机控制视频生成 已取得显著进展,使生成的视频能够遵循指定的视角轨迹。然而,现有方法通常通过学习特定相机的条件,例如相机编码器、控制分支,或修改注意力与位置编码,这往往需要在大量带相机标注的视频上进行后训练。免训练替代方案虽避免了此类后训练,但常将代价转移至测试时优化或额外的去噪时引导。我们提出 Warp-as-History,一个简单的接口,通过 目标帧位置对齐可见令牌选择,将 相机诱导的形变 转化为 相机形变伪历史。给定目标相机轨迹,我们从过去观察中构建相机形变伪历史,并将其输入模型的 视觉历史路径。关键在于,我们将其 位置编码 与正在去噪的目标帧对齐,并移除没有有效源观察的形变历史令牌。无需任何训练、架构修改或测试时优化,这一接口便揭示了冻结的 视频生成 模型遵循相机轨迹的非平凡 零样本能力。此外,仅在一个带相机标注的视频上进行轻量级离线 LoRA 微调,便可进一步提升此项能力并泛化到未见视频,在无需测试时优化或目标视频适配的情况下,改善相机遵循度、视觉质量和运动动态。在多种数据集上的大量实验证实了我们方法的有效性。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15182)
查看 PDF (https://arxiv.org/pdf/2605.15182)
项目页面 (https://yyfz.github.io/warp-as-history/)
GitHub16 (https://github.com/yyfz/Warp-as-History)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15182)

在你的 agent 中获取此论文:

hf papers read 2605\.15182

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15182 以从此页面关联。

引用此论文的数据集 0

没有数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15182 以从此页面关联。

引用此论文的 Spaces 0

没有 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15182 以从此页面关联。

包含此论文的收藏集 0

没有收藏集包含此论文

请将本论文添加到 收藏集 以从此页面关联。

相似文章

LoomVideo:统一多模态输入的视频生成与编辑

Hugging Face Daily Papers

LoomVideo提出了一种5B参数的统一架构用于视频生成和编辑,通过新颖的条件机制和多模态对齐减少计算开销,实现了具有竞争力的性能和更快的推理速度。

LooseControlVideo:使用空间分块的导演级视频控制

Hugging Face Daily Papers

LooseControlVideo 提出了一种框架,用于在文本生成视频中实现直观的3D空间控制,利用稀疏的有向3D框作为代理,实现了卓越的轨迹准确度和遮挡处理。它微调了Wan 2.2骨干网络,并在多个基准上展示了相较于现有方法的显著改进。