FlowLong: 基于流形约束Tweedie匹配的推理时长视频生成

Hugging Face Daily Papers 论文

摘要

一种新颖的推理时长视频生成方法,使用重叠滑动窗口结合Tweedie匹配和随机早期阶段采样,在不额外训练的情况下提高时间一致性和视觉质量。

扩展视频扩散模型的生成范围以生成长时间序列仍然是一个长期且重要的挑战。现有的无需训练的方法分为两类:双向模型的扩展,这些扩展与特定架构紧密耦合,并且在长序列上会出现质量退化;以及自回归模型,这些模型由于曝光偏差而累积漂移误差,并且倾向于产生重复的运动模式。为了解决这些问题,我们提出了一种新颖而简单的推理时长视频生成方法,该方法与架构无关,且无需额外训练。我们的方法通过重叠的滑动窗口生成长视频,其中相邻窗口的预测干净样本通过Tweedie匹配进行混合,以在重叠区域强制施加流形约束和时间一致性。随后,随机早期阶段采样通过在高噪声阶段每次Tweedie匹配校正后注入新噪声来同步每个窗口的轨迹,然后过渡到确定性ODE采样以保持精细的视觉保真度。应用于各种视频生成模型时,我们的方法生成的视频长度比原生窗口长度长几倍,同时在时间一致性和视觉质量上优于无需训练的基线和自回归基线,并且无需任何微调即可扩展到音视频联合生成和文本到3DGS。
查看原文
查看缓存全文

缓存时间: 2026/05/22 06:35

论文页面 - FlowLong: 通过流形约束Tweedie匹配实现推理时长视频生成

来源:https://huggingface.co/papers/2605.20910

摘要

一种新颖的推理时方法,用于长视频生成,采用重叠滑动窗口配合Tweedie匹配和随机早期阶段采样,以提升时间一致性和视觉质量。

将视频扩散模型的生成范围扩展到长序列,仍然是一个长期存在的重要挑战。现有的免训练方法分为两类:双向模型的扩展,这些方法与特定架构紧密耦合,并且在长序列上质量下降;自回归模型,由于暴露偏差会积累漂移误差,且倾向于产生重复的运动模式。为解决这些问题,我们提出一种新颖但简单的推理时方法,用于长视频生成,该方法与架构无关,且无需额外训练。我们的方法通过重叠滑动窗口生成长视频,其中相邻窗口的预测干净样本通过Tweedie匹配进行混合,以在重叠区域强制执行流形约束和时间一致性。随后,随机早期阶段采样通过在高噪声阶段每次Tweedie匹配校正后注入新鲜噪声,来同步每个窗口的轨迹,然后过渡到确定性ODE采样以保留精细的视觉保真度。应用于各种视频生成模型,我们的方法能够生成本地窗口长度数倍长的视频,在时间一致性和视觉质量上优于免训练和自回归基线,并进一步扩展到音视频联合生成和文本到3DGS,而无需任何微调。

查看arXiv页面 (https://arxiv.org/abs/2605.20910)查看PDF (https://arxiv.org/pdf/2605.20910)项目页面 (https://flowlong-video.github.io/)GitHub2 (https://github.com/jhq1234/flowlong)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20910)

在你的Agent中获取此论文:

hf papers read 2605.20910

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

请在模型README.md中引用arxiv.org/abs/2605.20910以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集README.md中引用arxiv.org/abs/2605.20910以从此页面链接。

引用此论文的Space0

无Space链接此论文

请在Space README.md中引用arxiv.org/abs/2605.20910以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection)以便从此页面链接。

相似文章

ARIADNE:推理时适配器动态选择的无关路由

arXiv cs.AI

提出ARIADNE,一种无需训练、适配器无关的路由框架,通过在嵌入空间中测量输入与适配器特定质心的接近度,在推理时选择最优的PEFT适配器,在23个任务上恢复了97.44%的上限性能。