One-Forcing: 迈向稳定的单步自回归视频生成
摘要
One-Forcing 通过用辅助 GAN 损失增强 DMD 目标,改进了单步视频生成,以更低的训练成本实现了最先进的性能。
查看缓存全文
缓存时间: 2026/06/01 19:21
论文页面 - One-Forcing: 迈向稳定的单步自回归视频生成
来源: https://huggingface.co/papers/2605.23458
摘要
One-Forcing 通过将 DMD 目标与 GAN 损失相结合,提升了单步视频生成的质量和效率,以更低的训练成本取得了最先进的结果。
近期进展显著提升了自回归模式下实时交互式视频生成的质量。然而,现有的大多数少步自回归视频生成 (https://huggingface.co/papers?q=autoregressive%20video%20generation) 方法(通常从对应的多步教师模型蒸馏而来)默认采用 4 步采样配置,这在部署时仍会导致相当大的延迟,并且当采样步数进一步减少(尤其是在单步设置下)时,会出现严重的质量退化。轨迹式一致性蒸馏 (https://huggingface.co/papers?q=Trajectory-style%20consistency%20distillation) 方法通常生成的视频动态性较弱,而基于 DMD (https://huggingface.co/papers?q=DMD-based%20approaches) 的方法(例如 Self-Forcing (https://huggingface.co/papers?q=Self-Forcing))则倾向于产生模糊的帧。为了解决这一挑战,我们提出了 One-Forcing,一种简单而有效的方法,它通过辅助的 GAN 损失 (https://huggingface.co/papers?q=GAN%20loss) 来增强 DMD 目标,以实现高质量且高效的单步视频生成 (https://huggingface.co/papers?q=one-step%20video%20generation)。在 VBench 上的实验表明,One-Forcing 的总分达到 83.76,在单步因果视频生成 (https://huggingface.co/papers?q=causal%20video%20generation) 方法中建立了最先进的性能,并与强大的多步方法保持竞争力。我们进一步证明,仅需分块模型 (https://huggingface.co/papers?q=chunkwise%20model) 三分之一的训练成本,即可稳定实现单步逐帧自回归生成,而先前的方案未能成功达成这一设置。
查看 arXiv 页面 (https://arxiv.org/abs/2605.23458)查看 PDF (https://arxiv.org/pdf/2605.23458)项目页面 (https://aurora-edu.github.io/one-forcing/)GitHub30 (https://github.com/Aurora-edu/One-Forcing)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.23458)
在你的代理中获取此论文:
hf papers read 2605\.23458
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.23458 以在此页面建立链接。
引用此论文的数据集0
没有数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.23458 以在此页面建立链接。
引用此论文的 Space0
没有 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.23458 以在此页面建立链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面建立链接。
相似文章
AAD-1:一步自回归视频生成的非对称对抗性蒸馏
AAD-1 引入具有分阶段训练的非对称对抗性蒸馏,以实现一步自回归视频生成,在 VBench 上优于先前方法。
Causal Forcing++:可扩展的少步自回归扩散蒸馏,用于实时交互式视频生成
Causal Forcing++提出了一种新颖的因果一致性蒸馏方法,用于逐帧自回归视频生成,在降低延迟和训练成本的同时实现了最先进的质量。
Next Forcing:基于多块预测的因果世界建模
Next Forcing 提出了一种用于因果世界建模的多块预测框架,可加速自回归视频生成的训练和推理,同时提高准确性和对物理规律的遵循程度。
面向自回归视频生成的在线策略对抗流蒸馏
提出对抗流蒸馏(AFD),用于将异质黑盒视频生成模型蒸馏为自回归学生模型,采用在线策略反馈和前向过程流匹配更新。
流式力控视频生成
StreamForce 是一种因果统一视频生成模型,通过蒸馏流水线和自回归架构,为时变力提供实时、基于物理的响应,在力的遵循度和运动真实性方面达到了最先进的性能。