Causal Forcing++:可扩展的少步自回归扩散蒸馏,用于实时交互式视频生成

Hugging Face Daily Papers 论文

摘要

Causal Forcing++提出了一种新颖的因果一致性蒸馏方法,用于逐帧自回归视频生成,在降低延迟和训练成本的同时实现了最先进的质量。

实时交互式视频生成需要低延迟、流式处理和可控的滚动生成。现有的自回归(AR)扩散蒸馏方法通过将双向基础模型蒸馏为少步AR学生模型,在块级4步机制中取得了强劲结果,但它们仍然受到粗粒度响应和不可忽略的采样延迟的限制。在本文中,我们研究了一种更激进的设置:仅使用1-2步采样的逐帧自回归。在此机制下,我们发现少步AR学生模型的初始化是关键瓶颈:现有策略要么与目标不对齐,要么无法进行少步生成,要么成本过高难以规模化。我们提出了Causal Forcing++,一种原则性且可扩展的流水线,它使用因果一致性蒸馏(causal CD)进行少步AR初始化。其核心思想是,因果CD学习与因果ODE蒸馏相同的AR条件流映射,但通过相邻时间步之间的单个在线教师ODE步骤获得监督,从而避免了预计算和存储完整PF-ODE轨迹的需求。这使得初始化既更高效又更容易优化。由此产生的流水线\ours在\textbf{逐帧2步设置}下,在VBench Total上超越最先进的4步块级Causal Forcing 0.1,在VBench Quality上超越0.3,在VisionReward上超越0.335,同时将首帧延迟降低50%,并将第2阶段训练成本降低约4倍。我们进一步将流水线扩展到基于动作条件的世界模型生成,秉承Genie3的精神。项目页面:https://github.com/thu-ml/Causal-Forcing 和 https://github.com/shengshu-ai/minWM 。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:23

Paper page - Causal Forcing++:面向实时交互视频生成的可扩展少步自回归扩散蒸馏

来源:https://huggingface.co/papers/2605.15141

摘要

一种新颖的因果一致性蒸馏方法,能够实现高效的逐帧视频生成,与现有的分块式方法相比,延迟更低,质量更高。

实时交互式视频生成需要低延迟、流式处理和可控的生成过程。现有的自回归(AR)扩散蒸馏方法通过将双向基础模型蒸馏为少步AR学生模型,在分块式4步生成场景中取得了优异的结果,但它们仍受限于粗粒度的响应粒度和不可忽略的采样延迟。在本文中,我们研究了一种更激进的设置:仅需1–2个采样步骤的逐帧自回归。在该设置下,我们识别出少步AR学生模型的初始化是关键瓶颈:现有策略要么目标不对齐、要么无法实现少步生成、要么因成本过高而难以扩展。我们提出了Causal Forcing++,一种原则性强且可扩展的流程,它利用因果一致性蒸馏(causal CD)进行少步AR初始化。其核心思想是:causal CD学习与因果ODE蒸馏相同的AR条件流映射,但仅从相邻时间步之间的单个在线教师ODE步骤获取监督信息,从而避免了预计算和存储完整PF-ODE轨迹的需求。这使得初始化过程更加高效且易于优化。由此产生的流程\ours在\textbf{逐帧2步设置}下超越了当前最先进的分块式4步Causal Forcing方法,在VBench总分、VBench质量和VisionReward上分别提升了0.1、0.3和0.335,同时将首帧延迟降低了50%,并将第二阶段训练成本降低了约4倍。我们进一步将该流程扩展到基于Genie3理念的动作条件世界模型生成。项目页面:https://github.com/thu-ml/Causal-Forcing 和 https://github.com/shengshu-ai/minWM。

查看arXiv页面 (https://arxiv.org/abs/2605.15141) | 查看PDF (https://arxiv.org/pdf/2605.15141) | 项目页面 (https://github.com/thu-ml/Causal-Forcing) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15141)

在你的agent中获取这篇论文:

hf papers read 2605.15141

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.15141 即可从此页面关联。

引用此论文的数据集0

尚无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.15141 即可从此页面关联。

引用此论文的Spaces0

尚无Space关联此论文

在Space README.md中引用 arxiv.org/abs/2605.15141 即可从此页面关联。

包含此论文的收藏集0

尚无包含此论文的收藏集

将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从此页面关联。

相似文章

长视频生成(阅读时间 4 分钟)

TLDR AI

本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。