Next Forcing：基于多块预测的因果世界建模

Hugging Face Daily Papers 2026/06/09 00:00 论文

摘要

Next Forcing 提出了一种用于因果世界建模的多块预测框架，可加速自回归视频生成的训练和推理，同时提高准确性和对物理规律的遵循程度。

自回归视频生成已成为世界动作模型（World Action Models, WAMs）的一种强大范式。然而，现有方法存在训练收敛速度慢、收敛精度有限的问题，尤其是在高帧率下，因为训练监督局限于当前块，缺乏关于未来动态的明确信号；此外，由于迭代视频去噪，推理速度也较慢。在本文中，我们提出 Next Forcing，一种用于因果世界建模的多块预测（Multi-Chunk Prediction, MCP）框架，可实现更快的训练、更高的准确性和加速的推理。受大语言模型中多 token 预测的启发，Next Forcing 引入了一个 MCP 训练目标，通过轻量级辅助 MCP 模块增强主模型，同时对多个未来时间视野（next^1、next^2、next^3 块）的视频块进行去噪。这些 MCP 模块在预测深度上形成因果链，其中利用从主模型多个层融合的中间特征来预测未来动态，使得近期预测能够为更远期预测提供信息，并向主模型提供密集的多尺度时间监督。在训练过程中，MCP 模块显著加速收敛并提高收敛精度，尤其是在高帧率下：在 50 fps 时，Next Forcing 在 5k 训练步数上相比 LingBot-VA 实现了 93.1% 的相对改进，收敛速度提升 2.3 倍，并在 RoboTwin 基准测试（Clean/Random 上分别达到 94.1%/93.5%）上取得了新的最先进结果。在推理时，保留 MCP 模块可并行预测当前块与下一视频块，实现 2 倍推理加速。Next Forcing 在 PhyWorld（一个评估视频生成中物理规律遵循程度的基准测试）上也展示了显著的改进，并在通用视频预训练上实现了超过 50% 的 FVD 降低。

查看原文

查看缓存全文

缓存时间: 2026/06/10 13:44

论文页面 - Next Forcing: 基于多块预测的因果世界建模

来源：https://huggingface.co/papers/2606.11187

摘要

Next Forcing 引入了一种多块预测框架，能加速自回归视频生成的训练与推理，同时提升准确率及对物理规律的遵循程度。

自回归视频生成（https://huggingface.co/papers?q=Autoregressive%20video%20generation）已成为世界动作模型（World Action Models，WAMs）的一种强大范式。然而，现有方法存在训练收敛慢、收敛精度有限的问题——尤其是在高帧率下，因为训练监督仅局限于当前块，缺乏对未来动态的显式信号；同时，迭代式视频去噪（https://huggingface.co/papers?q=video%20denoising）也导致推理速度缓慢。本文提出 Next Forcing，一种用于因果世界建模（https://huggingface.co/papers?q=causal%20world%20modeling）的多块预测（MCP）框架，能够实现更快的训练、更高的精度和加速的推理。受大语言模型中多 token 预测的启发，Next Forcing 引入了一种 MCP 训练目标：为主模型配备轻量级辅助 MCP 模块，使其能够同时去噪多个未来时间范围（https://huggingface.co/papers?q=temporal%20horizons）（next^1、next^2、next^3 块）的视频块。这些 MCP 模块在不同预测深度之间形成因果链（https://huggingface.co/papers?q=causal%20chain），利用从主模型多层融合的中间特征来预测未来动态，使得近期预测能够为远期预测提供信息，并为主模型提供密集的多尺度时间监督（https://huggingface.co/papers?q=multi-scale%20temporal%20supervision）。在训练过程中，MCP 模块显著加速收敛并提高收敛精度，尤其是在高帧率下：在 50 fps 时，Next Forcing 在 5k 训练步数上相比 LingBot-VA 取得了 93.1% 的相对提升，收敛速度提升 2.3 倍，并在 RoboTwin 基准（Clean/Random 上分别达到 94.1%/93.5%）上取得了新的最佳结果。在推理时，可以保留 MCP 模块，使其与当前块并行预测下一视频块，从而实现 2 倍推理加速（https://huggingface.co/papers?q=inference%20acceleration）。Next Forcing 还在 PhyWorld（https://huggingface.co/papers?q=PhyWorld）——一个评估视频生成中物理规律遵循程度的基准——上展现出显著改进，并在通用视频预训练中将 FVD（https://huggingface.co/papers?q=FVD）降低了 50% 以上。

查看 arXiv 页面（https://arxiv.org/abs/2606.11187）查看 PDF（https://arxiv.org/pdf/2606.11187）项目页面（https://gangweix.github.io/next-forcing/）GitHub29（https://github.com/gangweix/next-forcing）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.11187）

在您的 agent 中获取本文：

hf papers read 2606.11187

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

没有模型链接到本文

请在模型 README.md 中引用 arxiv.org/abs/2606.11187 以从本页面链接。

引用本文的数据集0

没有数据集链接到本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.11187 以从本页面链接。

引用本文的 Space0

没有 Space 链接到本文

请在 Space README.md 中引用 arxiv.org/abs/2606.11187 以从本页面链接。

包含本文的收藏集0

没有收藏集包含本文

请将本文添加到收藏集（https://huggingface.co/new-collection）以从本页面链接。

Next Forcing：基于多块预测的因果世界建模

论文页面 - Next Forcing: 基于多块预测的因果世界建模

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Space0

包含本文的收藏集0

相似文章

Causal Forcing++：可扩展的少步自回归扩散蒸馏，用于实时交互式视频生成

CausalCine：用于多镜头视频叙事的实时自回归生成

One-Forcing: 迈向稳定的单步自回归视频生成

YoCausal: 视频生成距离世界模型有多远？因果视角

流式力控视频生成

提交意见反馈