Warp-as-History：基于单个训练视频的可泛化相机控制视频生成

Hugging Face Daily Papers 2026/05/14 00:00 论文

摘要

Warp-as-History 提出了一种新颖的接口，将相机引起的扭曲转换为伪历史表示，使冻结的视频生成模型无需训练或测试时优化即可遵循相机轨迹。在单个视频上进行轻量级 LoRA 微调可进一步提高相机遵从性并泛化到未见过的视频。

相机控制视频生成已取得显著进展，使生成的视频能够遵循指定的视角轨迹。然而，现有方法通常通过相机编码器、控制分支或注意力与位置编码修改来学习相机特定条件，这通常需要对大规模相机标注视频进行后训练。无需训练的替代方法避免了这种后训练，但往往将成本转移到测试时优化或额外的去噪时引导。我们提出 Warp-as-History，这是一种简单的接口，通过目标帧位置对齐和可见令牌选择，将相机诱导的扭曲转换为相机扭曲的伪历史。给定目标相机轨迹，我们从过去的观察中构建相机扭曲的伪历史，并通过模型的视觉历史路径输入。关键在于，我们将其位置编码与正在去噪的目标帧对齐，并移除没有有效源观测的扭曲历史令牌。无需任何训练、架构修改或测试时优化，该接口揭示了冻结视频生成模型遵循相机轨迹的非平凡零样本能力。此外，仅在一个相机标注视频上进行轻量级离线 LoRA 微调，进一步提高了这种能力，并泛化到未见过的视频，从而在不进行测试时优化或目标视频适应的情况下，改善了相机遵从性、视觉质量和运动动态。在多样化数据集上的大量实验证实了我们的方法的有效性。

查看原文

查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - Warp-as-History: 仅需一个训练视频即可实现泛化相机控制视频生成

来源：https://huggingface.co/papers/2605.15182

摘要

一种名为 Warp-as-History 的新方法，通过将相机诱导的形变转换为伪历史表示，实现无需训练或测试时优化的零样本能力，从而完成相机控制视频生成。

相机控制视频生成已取得显著进展，使生成的视频能够遵循指定的视角轨迹。然而，现有方法通常通过学习特定相机的条件，例如相机编码器、控制分支，或修改注意力与位置编码，这往往需要在大量带相机标注的视频上进行后训练。免训练替代方案虽避免了此类后训练，但常将代价转移至测试时优化或额外的去噪时引导。我们提出 Warp-as-History，一个简单的接口，通过目标帧位置对齐和可见令牌选择，将相机诱导的形变转化为相机形变伪历史。给定目标相机轨迹，我们从过去观察中构建相机形变伪历史，并将其输入模型的视觉历史路径。关键在于，我们将其位置编码与正在去噪的目标帧对齐，并移除没有有效源观察的形变历史令牌。无需任何训练、架构修改或测试时优化，这一接口便揭示了冻结的视频生成模型遵循相机轨迹的非平凡零样本能力。此外，仅在一个带相机标注的视频上进行轻量级离线 LoRA 微调，便可进一步提升此项能力并泛化到未见视频，在无需测试时优化或目标视频适配的情况下，改善相机遵循度、视觉质量和运动动态。在多种数据集上的大量实验证实了我们方法的有效性。

查看 arXiv 页面 (https://arxiv.org/abs/2605.15182)
查看 PDF (https://arxiv.org/pdf/2605.15182)
项目页面 (https://yyfz.github.io/warp-as-history/)
GitHub16 (https://github.com/yyfz/Warp-as-History)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15182)

在你的 agent 中获取此论文：

hf papers read 2605\.15182

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15182 以从此页面关联。

引用此论文的数据集 0

没有数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15182 以从此页面关联。

引用此论文的 Spaces 0

没有 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15182 以从此页面关联。

包含此论文的收藏集 0

没有收藏集包含此论文

请将本论文添加到收藏集以从此页面关联。

Warp-as-History：基于单个训练视频的可泛化相机控制视频生成

论文页面 - Warp-as-History: 仅需一个训练视频即可实现泛化相机控制视频生成

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

LoomVideo：统一多模态输入的视频生成与编辑

LooseControlVideo：使用空间分块的导演级视频控制

Track2View：通过配对3D点轨迹实现4D一致的相机控制视频生成

Holo-World：面向视频世界模型的统一相机、物体与天气控制

PermaVid: 通过解耦上下文记忆实现编辑间一致的视频生成

提交意见反馈