Next Forcing:基于多块预测的因果世界建模
摘要
Next Forcing 提出了一种用于因果世界建模的多块预测框架,可加速自回归视频生成的训练和推理,同时提高准确性和对物理规律的遵循程度。
查看缓存全文
缓存时间: 2026/06/10 13:44
论文页面 - Next Forcing: 基于多块预测的因果世界建模
来源:https://huggingface.co/papers/2606.11187
摘要
Next Forcing 引入了一种多块预测框架,能加速自回归视频生成的训练与推理,同时提升准确率及对物理规律的遵循程度。
自回归视频生成(https://huggingface.co/papers?q=Autoregressive%20video%20generation)已成为世界动作模型(World Action Models,WAMs)的一种强大范式。然而,现有方法存在训练收敛慢、收敛精度有限的问题——尤其是在高帧率下,因为训练监督仅局限于当前块,缺乏对未来动态的显式信号;同时,迭代式视频去噪(https://huggingface.co/papers?q=video%20denoising)也导致推理速度缓慢。本文提出 Next Forcing,一种用于因果世界建模(https://huggingface.co/papers?q=causal%20world%20modeling)的多块预测(MCP)框架,能够实现更快的训练、更高的精度和加速的推理。受大语言模型中多 token 预测的启发,Next Forcing 引入了一种 MCP 训练目标:为主模型配备轻量级辅助 MCP 模块,使其能够同时去噪多个未来时间范围(https://huggingface.co/papers?q=temporal%20horizons)(next^1、next^2、next^3 块)的视频块。这些 MCP 模块在不同预测深度之间形成因果链(https://huggingface.co/papers?q=causal%20chain),利用从主模型多层融合的中间特征来预测未来动态,使得近期预测能够为远期预测提供信息,并为主模型提供密集的多尺度时间监督(https://huggingface.co/papers?q=multi-scale%20temporal%20supervision)。在训练过程中,MCP 模块显著加速收敛并提高收敛精度,尤其是在高帧率下:在 50 fps 时,Next Forcing 在 5k 训练步数上相比 LingBot-VA 取得了 93.1% 的相对提升,收敛速度提升 2.3 倍,并在 RoboTwin 基准(Clean/Random 上分别达到 94.1%/93.5%)上取得了新的最佳结果。在推理时,可以保留 MCP 模块,使其与当前块并行预测下一视频块,从而实现 2 倍推理加速(https://huggingface.co/papers?q=inference%20acceleration)。Next Forcing 还在 PhyWorld(https://huggingface.co/papers?q=PhyWorld)——一个评估视频生成中物理规律遵循程度的基准——上展现出显著改进,并在通用视频预训练中将 FVD(https://huggingface.co/papers?q=FVD)降低了 50% 以上。
查看 arXiv 页面(https://arxiv.org/abs/2606.11187)查看 PDF(https://arxiv.org/pdf/2606.11187)项目页面(https://gangweix.github.io/next-forcing/)GitHub29(https://github.com/gangweix/next-forcing)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.11187)
在您的 agent 中获取本文:
hf papers read 2606.11187
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本文的模型0
没有模型链接到本文
请在模型 README.md 中引用 arxiv.org/abs/2606.11187 以从本页面链接。
引用本文的数据集0
没有数据集链接到本文
请在数据集 README.md 中引用 arxiv.org/abs/2606.11187 以从本页面链接。
引用本文的 Space0
没有 Space 链接到本文
请在 Space README.md 中引用 arxiv.org/abs/2606.11187 以从本页面链接。
包含本文的收藏集0
没有收藏集包含本文
请将本文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接。
相似文章
Causal Forcing++:可扩展的少步自回归扩散蒸馏,用于实时交互式视频生成
Causal Forcing++提出了一种新颖的因果一致性蒸馏方法,用于逐帧自回归视频生成,在降低延迟和训练成本的同时实现了最先进的质量。
CausalCine:用于多镜头视频叙事的实时自回归生成
CausalCine 是一个新的学术框架,用于实时交互式多镜头视频生成,它利用因果建模和动态内存路由技术,提高了自回归模型在镜头间的一致性。
One-Forcing: 迈向稳定的单步自回归视频生成
One-Forcing 通过用辅助 GAN 损失增强 DMD 目标,改进了单步视频生成,以更低的训练成本实现了最先进的性能。
YoCausal: 视频生成距离世界模型有多远?因果视角
本文介绍了YoCausal,一个基于认知科学中的违反预期(Violation of Expectation)范式的基准,用于评估视频扩散模型是否真正理解因果关系,还是仅仅过拟合于时间模式。对13个最先进模型的评估显示,与人类级别的因果认知相比,存在显著差距。
流式力控视频生成
StreamForce 是一种因果统一视频生成模型,通过蒸馏流水线和自回归架构,为时变力提供实时、基于物理的响应,在力的遵循度和运动真实性方面达到了最先进的性能。