FlowLong: 基于流形约束Tweedie匹配的推理时长视频生成
摘要
一种新颖的推理时长视频生成方法,使用重叠滑动窗口结合Tweedie匹配和随机早期阶段采样,在不额外训练的情况下提高时间一致性和视觉质量。
查看缓存全文
缓存时间: 2026/05/22 06:35
论文页面 - FlowLong: 通过流形约束Tweedie匹配实现推理时长视频生成
来源:https://huggingface.co/papers/2605.20910
摘要
一种新颖的推理时方法,用于长视频生成,采用重叠滑动窗口配合Tweedie匹配和随机早期阶段采样,以提升时间一致性和视觉质量。
将视频扩散模型的生成范围扩展到长序列,仍然是一个长期存在的重要挑战。现有的免训练方法分为两类:双向模型的扩展,这些方法与特定架构紧密耦合,并且在长序列上质量下降;自回归模型,由于暴露偏差会积累漂移误差,且倾向于产生重复的运动模式。为解决这些问题,我们提出一种新颖但简单的推理时方法,用于长视频生成,该方法与架构无关,且无需额外训练。我们的方法通过重叠滑动窗口生成长视频,其中相邻窗口的预测干净样本通过Tweedie匹配进行混合,以在重叠区域强制执行流形约束和时间一致性。随后,随机早期阶段采样通过在高噪声阶段每次Tweedie匹配校正后注入新鲜噪声,来同步每个窗口的轨迹,然后过渡到确定性ODE采样以保留精细的视觉保真度。应用于各种视频生成模型,我们的方法能够生成本地窗口长度数倍长的视频,在时间一致性和视觉质量上优于免训练和自回归基线,并进一步扩展到音视频联合生成和文本到3DGS,而无需任何微调。
查看arXiv页面 (https://arxiv.org/abs/2605.20910)查看PDF (https://arxiv.org/pdf/2605.20910)项目页面 (https://flowlong-video.github.io/)GitHub2 (https://github.com/jhq1234/flowlong)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.20910)
在你的Agent中获取此论文:
hf papers read 2605.20910
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
请在模型README.md中引用arxiv.org/abs/2605.20910以从此页面链接。
引用此论文的数据集0
无数据集链接此论文
请在数据集README.md中引用arxiv.org/abs/2605.20910以从此页面链接。
引用此论文的Space0
无Space链接此论文
请在Space README.md中引用arxiv.org/abs/2605.20910以从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection)以便从此页面链接。
相似文章
ARIADNE:推理时适配器动态选择的无关路由
提出ARIADNE,一种无需训练、适配器无关的路由框架,通过在嵌入空间中测量输入与适配器特定质心的接近度,在推理时选择最优的PEFT适配器,在23个任务上恢复了97.44%的上限性能。
Memento:通过重建实现记忆,用于一致的长时间视频生成
Memento 是一个以主体重建为引导的框架,通过基于记忆的重建和双查询机制来保留重复出现的主体,从而改进长视频生成,在长期主体一致性和跨镜头连贯性方面达到了最先进的性能。
从消费到反思:设计人机关系以实现稳定推理
本文引入了关系反思智能(RRI),这是一个推理时治理层,通过可审计的推理循环来稳定人机推理,解决了人类和大语言模型共有的认知弱点。
校准过度自信而不牺牲置信度:面向LLMs的探针条件化头部干预
本文介绍了一种推理时方法——探针条件化头部干预(PCHI),该方法通过在模型可能错误但保持高置信度时条件性地重新缩放注意力头输出,有选择地减少对错误答案的过度自信,同时不会显著降低对正确答案的置信度。
Evoflux: 针对轻量级智能体的可执行工具工作流的推理时演化
Evoflux 在推理时使用进化搜索来修复轻量级语言模型中失败的工具工作流,相比微调方法显著提升了执行可行性。