Causal Forcing++：可扩展的少步自回归扩散蒸馏，用于实时交互式视频生成

Hugging Face Daily Papers 2026/05/14 00:00 论文

few-step autoregressive diffusion-distillation video-generation real-time causal-consistency world-model

摘要

Causal Forcing++提出了一种新颖的因果一致性蒸馏方法，用于逐帧自回归视频生成，在降低延迟和训练成本的同时实现了最先进的质量。

实时交互式视频生成需要低延迟、流式处理和可控的滚动生成。现有的自回归（AR）扩散蒸馏方法通过将双向基础模型蒸馏为少步AR学生模型，在块级4步机制中取得了强劲结果，但它们仍然受到粗粒度响应和不可忽略的采样延迟的限制。在本文中，我们研究了一种更激进的设置：仅使用1-2步采样的逐帧自回归。在此机制下，我们发现少步AR学生模型的初始化是关键瓶颈：现有策略要么与目标不对齐，要么无法进行少步生成，要么成本过高难以规模化。我们提出了Causal Forcing++，一种原则性且可扩展的流水线，它使用因果一致性蒸馏（causal CD）进行少步AR初始化。其核心思想是，因果CD学习与因果ODE蒸馏相同的AR条件流映射，但通过相邻时间步之间的单个在线教师ODE步骤获得监督，从而避免了预计算和存储完整PF-ODE轨迹的需求。这使得初始化既更高效又更容易优化。由此产生的流水线\ours在\textbf{逐帧2步设置}下，在VBench Total上超越最先进的4步块级Causal Forcing 0.1，在VBench Quality上超越0.3，在VisionReward上超越0.335，同时将首帧延迟降低50%，并将第2阶段训练成本降低约4倍。我们进一步将流水线扩展到基于动作条件的世界模型生成，秉承Genie3的精神。项目页面：https://github.com/thu-ml/Causal-Forcing 和 https://github.com/shengshu-ai/minWM 。

查看原文

查看缓存全文

缓存时间: 2026/05/15 04:23

Paper page - Causal Forcing++：面向实时交互视频生成的可扩展少步自回归扩散蒸馏

来源：https://huggingface.co/papers/2605.15141

摘要

一种新颖的因果一致性蒸馏方法，能够实现高效的逐帧视频生成，与现有的分块式方法相比，延迟更低，质量更高。

实时交互式视频生成需要低延迟、流式处理和可控的生成过程。现有的自回归（AR）扩散蒸馏方法通过将双向基础模型蒸馏为少步AR学生模型，在分块式4步生成场景中取得了优异的结果，但它们仍受限于粗粒度的响应粒度和不可忽略的采样延迟。在本文中，我们研究了一种更激进的设置：仅需1–2个采样步骤的逐帧自回归。在该设置下，我们识别出少步AR学生模型的初始化是关键瓶颈：现有策略要么目标不对齐、要么无法实现少步生成、要么因成本过高而难以扩展。我们提出了Causal Forcing++，一种原则性强且可扩展的流程，它利用因果一致性蒸馏（causal CD）进行少步AR初始化。其核心思想是：causal CD学习与因果ODE蒸馏相同的AR条件流映射，但仅从相邻时间步之间的单个在线教师ODE步骤获取监督信息，从而避免了预计算和存储完整PF-ODE轨迹的需求。这使得初始化过程更加高效且易于优化。由此产生的流程\ours在\textbf{逐帧2步设置}下超越了当前最先进的分块式4步Causal Forcing方法，在VBench总分、VBench质量和VisionReward上分别提升了0.1、0.3和0.335，同时将首帧延迟降低了50%，并将第二阶段训练成本降低了约4倍。我们进一步将该流程扩展到基于Genie3理念的动作条件世界模型生成。项目页面：https://github.com/thu-ml/Causal-Forcing 和 https://github.com/shengshu-ai/minWM。

查看arXiv页面 (https://arxiv.org/abs/2605.15141) | 查看PDF (https://arxiv.org/pdf/2605.15141) | 项目页面 (https://github.com/thu-ml/Causal-Forcing) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15141)

在你的agent中获取这篇论文：

hf papers read 2605.15141

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

尚无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2605.15141 即可从此页面关联。

引用此论文的数据集0

尚无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.15141 即可从此页面关联。

引用此论文的Spaces0

尚无Space关联此论文

在Space README.md中引用 arxiv.org/abs/2605.15141 即可从此页面关联。

包含此论文的收藏集0

尚无包含此论文的收藏集

将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从此页面关联。

Causal Forcing++：可扩展的少步自回归扩散蒸馏，用于实时交互式视频生成

Paper page - Causal Forcing++：面向实时交互视频生成的可扩展少步自回归扩散蒸馏

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏集0

相似文章

CausalCine：用于多镜头视频叙事的实时自回归生成

Forcing-KV：面向高效自回归视频扩散模型的混合KV缓存压缩策略

A^2RD：用于长视频一致性的代理式自回归扩散

Stream-R1：流式视频生成的可靠性-困惑度感知奖励蒸馏

长视频生成（阅读时间 4 分钟）

提交意见反馈