Steady-Forcing: 在长时域自然视频扩散中平衡空间持久性与运动连续性

Hugging Face Daily Papers 2026/06/02 00:00 论文

video-diffusion nature-video long-horizon spatial-stability motion-continuity autoregressive generative-model

摘要

Steady-Forcing 提出了一种记忆与训练框架，旨在长时域自然视频生成中平衡空间稳定性与运动连续性，在保持流体动态持续多分钟滚动生成的同时，提升背景一致性。

自回归视频扩散模型能够实现流式生成，但在长时间滚动生成中往往会退化：静态场景布局发生漂移，而提高空间稳定性的机制往往抑制运动，导致水流、火焰或烟雾等自然流动停滞。我们研究了固定摄像头长时域自然视频生成中的这种稳定性-运动权衡，在该设定下两种失效模式比运动摄像头设定下更易区分。我们提出了 Steady-Forcing，一种记忆与训练框架，结合了持久视觉锚点（V-Sink）、指数移动平均运动记忆（EMA-Sink）、块相对时序编码、周期性缓存净化，以及来自 Wan2.1-14B 教师模型的蒸馏（采用运动奖励先验，在任务聚焦配置下）。这些组件共同设计用于在多分钟自回归滚动生成中保持背景身份，同时维持视觉上合理的流体动态。在七个基线上的评估表明，Steady-Forcing 改善了长时域背景一致性和成像质量，而一项盲用户研究则表明感知稳定性和运动连续性更强。基准评估进一步表明，通用的 VBench 聚合分数对固定摄像头伪影的惩罚不足，同时将漂移诱导的光流奖励为动态程度，而未直接惩罚纹理硬化或流动停滞——这为未来静态摄像头自然流动评估的任务特定基准提供了动机。项目页面：https://minar09.github.io/steadyforcing/

查看原文

查看缓存全文

缓存时间: 2026/06/16 01:01

论文页面 - Steady-Forcing：在长程自然视频扩散中平衡空间持久性与运动连续性

来源：https://huggingface.co/papers/2606.14732

摘要

Steady-Forcing 通过一种结合视觉锚点、运动记忆、时间编码和蒸馏技术的记忆与训练框架，解决了长程自然视频生成中的稳定性-运动权衡问题。

自回归视频扩散模型（https://huggingface.co/papers?q=Autoregressive%20video%20diffusion%20models）支持流式生成，但往往在长序列推演中退化：静态场景布局会漂移，而提升空间稳定性（https://huggingface.co/papers?q=spatial%20stability）的机制又倾向于抑制运动，导致水、火焰或烟雾等自然流动停滞。我们在固定摄像头的长程自然视频生成中研究了这种稳定性-运动权衡，在该场景下两种故障模式比移动摄像头场景更易区分。我们提出 Steady-Forcing，一个结合持久视觉锚点（https://huggingface.co/papers?q=visual%20anchor）(V-Sink（https://huggingface.co/papers?q=V-Sink）)、指数移动平均运动记忆（https://huggingface.co/papers?q=exponential%20moving-average%20motion%20memory）(EMA-Sink（https://huggingface.co/papers?q=EMA-Sink）)、块相对时间编码（https://huggingface.co/papers?q=block-relative%20temporal%20encoding）、周期性缓存净化（https://huggingface.co/papers?q=cache%20purification）以及来自 Wan2.1-14B 教师模型在任务聚焦配置下带有运动奖励先验（https://huggingface.co/papers?q=motion-rewarded%20priors）的蒸馏（https://huggingface.co/papers?q=distillation）的记忆与训练框架。这些组件共同设计用于在数分钟的自回归推演中保持背景身份，同时维持视觉上合理的流体动力学。在七个基线上的评估表明，Steady-Forcing 提升了长程背景一致性和成像质量，而一项盲法用户研究显示出更强的感知稳定性和运动连续性。基准评估进一步表明，通用的 VBench（https://huggingface.co/papers?q=VBench）聚合分数对固定摄像头伪影的惩罚不足，同时将漂移引起的光流（https://huggingface.co/papers?q=optical%20flow）奖励为“动态程度”，而并未直接惩罚纹理硬化（https://huggingface.co/papers?q=texture%20hardening）或流动停滞——这为未来静态摄像头自然流动评估的任务特定基准提供了动机。项目页面：https://minar09.github.io/steadyforcing/

查看 arXiv 页面（https://arxiv.org/abs/2606.14732）查看 PDF（https://arxiv.org/pdf/2606.14732）项目页面（https://minar09.github.io/steadyforcing/）GitHub（https://github.com/minar09/steady-forcing）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.14732）

在您的 agent 中获取这篇论文：

hf papers read 2606.14732

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

minar09/Steady-Forcing-T2V-1.3B 文本转视频•更新于不到一分钟前（https://huggingface.co/minar09/Steady-Forcing-T2V-1.3B）

引用此论文的数据集0

没有数据集链接此论文

请在数据集的 README.md 中引用 arxiv.org/abs/2606.14732 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space 的 README.md 中引用 arxiv.org/abs/2606.14732 以从此页面链接。

Steady-Forcing: 在长时域自然视频扩散中平衡空间持久性与运动连续性

论文页面 - Steady-Forcing：在长程自然视频扩散中平衡空间持久性与运动连续性

摘要

引用此论文的模型1

minar09/Steady-Forcing-T2V-1.3B 文本转视频•更新于不到一分钟前（https://huggingface.co/minar09/Steady-Forcing-T2V-1.3B）

引用此论文的数据集0

引用此论文的 Space0

包含此论文的收藏1

相似文章

Causal Forcing++：可扩展的少步自回归扩散蒸馏，用于实时交互式视频生成

流式力控视频生成

FadeMem: 距离感知的记忆整合用于自回归视频扩散

One-Forcing: 迈向稳定的单步自回归视频生成

Echo-Forcing: 一种用于交互式长视频生成的场景记忆框架

提交意见反馈