Steady-Forcing: 在长时域自然视频扩散中平衡空间持久性与运动连续性

Hugging Face Daily Papers 论文

摘要

Steady-Forcing 提出了一种记忆与训练框架,旨在长时域自然视频生成中平衡空间稳定性与运动连续性,在保持流体动态持续多分钟滚动生成的同时,提升背景一致性。

自回归视频扩散模型能够实现流式生成,但在长时间滚动生成中往往会退化:静态场景布局发生漂移,而提高空间稳定性的机制往往抑制运动,导致水流、火焰或烟雾等自然流动停滞。我们研究了固定摄像头长时域自然视频生成中的这种稳定性-运动权衡,在该设定下两种失效模式比运动摄像头设定下更易区分。我们提出了 Steady-Forcing,一种记忆与训练框架,结合了持久视觉锚点(V-Sink)、指数移动平均运动记忆(EMA-Sink)、块相对时序编码、周期性缓存净化,以及来自 Wan2.1-14B 教师模型的蒸馏(采用运动奖励先验,在任务聚焦配置下)。这些组件共同设计用于在多分钟自回归滚动生成中保持背景身份,同时维持视觉上合理的流体动态。在七个基线上的评估表明,Steady-Forcing 改善了长时域背景一致性和成像质量,而一项盲用户研究则表明感知稳定性和运动连续性更强。基准评估进一步表明,通用的 VBench 聚合分数对固定摄像头伪影的惩罚不足,同时将漂移诱导的光流奖励为动态程度,而未直接惩罚纹理硬化或流动停滞——这为未来静态摄像头自然流动评估的任务特定基准提供了动机。项目页面:https://minar09.github.io/steadyforcing/
查看原文
查看缓存全文

缓存时间: 2026/06/16 01:01

论文页面 - Steady-Forcing:在长程自然视频扩散中平衡空间持久性与运动连续性

来源:https://huggingface.co/papers/2606.14732

摘要

Steady-Forcing 通过一种结合视觉锚点、运动记忆、时间编码和蒸馏技术的记忆与训练框架,解决了长程自然视频生成中的稳定性-运动权衡问题。

自回归视频扩散模型(https://huggingface.co/papers?q=Autoregressive%20video%20diffusion%20models)支持流式生成,但往往在长序列推演中退化:静态场景布局会漂移,而提升空间稳定性(https://huggingface.co/papers?q=spatial%20stability)的机制又倾向于抑制运动,导致水、火焰或烟雾等自然流动停滞。我们在固定摄像头的长程自然视频生成中研究了这种稳定性-运动权衡,在该场景下两种故障模式比移动摄像头场景更易区分。我们提出 Steady-Forcing,一个结合持久视觉锚点(https://huggingface.co/papers?q=visual%20anchor)(V-Sink(https://huggingface.co/papers?q=V-Sink))、指数移动平均运动记忆(https://huggingface.co/papers?q=exponential%20moving-average%20motion%20memory)(EMA-Sink(https://huggingface.co/papers?q=EMA-Sink))、块相对时间编码(https://huggingface.co/papers?q=block-relative%20temporal%20encoding)、周期性缓存净化(https://huggingface.co/papers?q=cache%20purification)以及来自 Wan2.1-14B 教师模型在任务聚焦配置下带有运动奖励先验(https://huggingface.co/papers?q=motion-rewarded%20priors)的蒸馏(https://huggingface.co/papers?q=distillation)的记忆与训练框架。这些组件共同设计用于在数分钟的自回归推演中保持背景身份,同时维持视觉上合理的流体动力学。在七个基线上的评估表明,Steady-Forcing 提升了长程背景一致性和成像质量,而一项盲法用户研究显示出更强的感知稳定性和运动连续性。基准评估进一步表明,通用的 VBench(https://huggingface.co/papers?q=VBench)聚合分数对固定摄像头伪影的惩罚不足,同时将漂移引起的光流(https://huggingface.co/papers?q=optical%20flow)奖励为“动态程度”,而并未直接惩罚纹理硬化(https://huggingface.co/papers?q=texture%20hardening)或流动停滞——这为未来静态摄像头自然流动评估的任务特定基准提供了动机。项目页面:https://minar09.github.io/steadyforcing/

查看 arXiv 页面(https://arxiv.org/abs/2606.14732)查看 PDF(https://arxiv.org/pdf/2606.14732)项目页面(https://minar09.github.io/steadyforcing/)GitHub(https://github.com/minar09/steady-forcing)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.14732)

在您的 agent 中获取这篇论文:

hf papers read 2606.14732

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

minar09/Steady-Forcing-T2V-1.3B 文本转视频•更新于不到一分钟前(https://huggingface.co/minar09/Steady-Forcing-T2V-1.3B)

引用此论文的数据集0

没有数据集链接此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.14732 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.14732 以从此页面链接。

包含此论文的收藏1

相似文章

流式力控视频生成

Hugging Face Daily Papers

StreamForce 是一种因果统一视频生成模型,通过蒸馏流水线和自回归架构,为时变力提供实时、基于物理的响应,在力的遵循度和运动真实性方面达到了最先进的性能。

Echo-Forcing: 一种用于交互式长视频生成的场景记忆框架

Hugging Face Daily Papers

Echo-Forcing 提出了一种用于交互式长视频生成的场景记忆框架,利用分层时间记忆、场景召回帧和差异感知记忆衰减来处理提示切换和长期回忆。该方法无需训练,在 VBench-Long 上取得了强劲的性能。