Causal Forcing++:可扩展的少步自回归扩散蒸馏,用于实时交互式视频生成
摘要
Causal Forcing++提出了一种新颖的因果一致性蒸馏方法,用于逐帧自回归视频生成,在降低延迟和训练成本的同时实现了最先进的质量。
查看缓存全文
缓存时间: 2026/05/15 04:23
Paper page - Causal Forcing++:面向实时交互视频生成的可扩展少步自回归扩散蒸馏
来源:https://huggingface.co/papers/2605.15141
摘要
一种新颖的因果一致性蒸馏方法,能够实现高效的逐帧视频生成,与现有的分块式方法相比,延迟更低,质量更高。
实时交互式视频生成需要低延迟、流式处理和可控的生成过程。现有的自回归(AR)扩散蒸馏方法通过将双向基础模型蒸馏为少步AR学生模型,在分块式4步生成场景中取得了优异的结果,但它们仍受限于粗粒度的响应粒度和不可忽略的采样延迟。在本文中,我们研究了一种更激进的设置:仅需1–2个采样步骤的逐帧自回归。在该设置下,我们识别出少步AR学生模型的初始化是关键瓶颈:现有策略要么目标不对齐、要么无法实现少步生成、要么因成本过高而难以扩展。我们提出了Causal Forcing++,一种原则性强且可扩展的流程,它利用因果一致性蒸馏(causal CD)进行少步AR初始化。其核心思想是:causal CD学习与因果ODE蒸馏相同的AR条件流映射,但仅从相邻时间步之间的单个在线教师ODE步骤获取监督信息,从而避免了预计算和存储完整PF-ODE轨迹的需求。这使得初始化过程更加高效且易于优化。由此产生的流程\ours在\textbf{逐帧2步设置}下超越了当前最先进的分块式4步Causal Forcing方法,在VBench总分、VBench质量和VisionReward上分别提升了0.1、0.3和0.335,同时将首帧延迟降低了50%,并将第二阶段训练成本降低了约4倍。我们进一步将该流程扩展到基于Genie3理念的动作条件世界模型生成。项目页面:https://github.com/thu-ml/Causal-Forcing 和 https://github.com/shengshu-ai/minWM。
查看arXiv页面 (https://arxiv.org/abs/2605.15141) | 查看PDF (https://arxiv.org/pdf/2605.15141) | 项目页面 (https://github.com/thu-ml/Causal-Forcing) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.15141)
在你的agent中获取这篇论文:
hf papers read 2605.15141
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
尚无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2605.15141 即可从此页面关联。
引用此论文的数据集0
尚无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.15141 即可从此页面关联。
引用此论文的Spaces0
尚无Space关联此论文
在Space README.md中引用 arxiv.org/abs/2605.15141 即可从此页面关联。
包含此论文的收藏集0
尚无包含此论文的收藏集
将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 即可从此页面关联。
相似文章
CausalCine:用于多镜头视频叙事的实时自回归生成
CausalCine 是一个新的学术框架,用于实时交互式多镜头视频生成,它利用因果建模和动态内存路由技术,提高了自回归模型在镜头间的一致性。
Forcing-KV:面向高效自回归视频扩散模型的混合KV缓存压缩策略
本文介绍了Forcing-KV,这是一种针对自回归视频扩散模型的混合KV缓存压缩策略,它将注意力头分为静态和动态两类,在1080P分辨率下实现了高达2.82倍的加速,同时保持了输出质量。
A^2RD:用于长视频一致性的代理式自回归扩散
A^2RD 是一篇新论文,介绍了一种用于长视频合成的代理式自回归扩散架构,通过闭环自改进流程实现了更好的一致性和叙事连贯性。
Stream-R1:流式视频生成的可靠性-困惑度感知奖励蒸馏
Stream-R1 提出了一种针对流式视频生成的可靠性-困惑度感知奖励蒸馏框架,通过自适应加权监督信号来提升视觉和动态质量,且不增加额外的计算开销。
长视频生成(阅读时间 4 分钟)
本文介绍了 A²RD,这是一种利用智能体自回归扩散生成一致性长视频的新型架构。该架构提出了检索-合成-优化-更新(Retrieve–Synthesize–Refine–Update)循环机制,并推出了一个新的基准测试 LVBench-C,以解决长时视频合成中的语义漂移问题。