Next Forcing:基于多块预测的因果世界建模

Hugging Face Daily Papers 论文

摘要

Next Forcing 提出了一种用于因果世界建模的多块预测框架,可加速自回归视频生成的训练和推理,同时提高准确性和对物理规律的遵循程度。

自回归视频生成已成为世界动作模型(World Action Models, WAMs)的一种强大范式。然而,现有方法存在训练收敛速度慢、收敛精度有限的问题,尤其是在高帧率下,因为训练监督局限于当前块,缺乏关于未来动态的明确信号;此外,由于迭代视频去噪,推理速度也较慢。在本文中,我们提出 Next Forcing,一种用于因果世界建模的多块预测(Multi-Chunk Prediction, MCP)框架,可实现更快的训练、更高的准确性和加速的推理。受大语言模型中多 token 预测的启发,Next Forcing 引入了一个 MCP 训练目标,通过轻量级辅助 MCP 模块增强主模型,同时对多个未来时间视野(next^1、next^2、next^3 块)的视频块进行去噪。这些 MCP 模块在预测深度上形成因果链,其中利用从主模型多个层融合的中间特征来预测未来动态,使得近期预测能够为更远期预测提供信息,并向主模型提供密集的多尺度时间监督。在训练过程中,MCP 模块显著加速收敛并提高收敛精度,尤其是在高帧率下:在 50 fps 时,Next Forcing 在 5k 训练步数上相比 LingBot-VA 实现了 93.1% 的相对改进,收敛速度提升 2.3 倍,并在 RoboTwin 基准测试(Clean/Random 上分别达到 94.1%/93.5%)上取得了新的最先进结果。在推理时,保留 MCP 模块可并行预测当前块与下一视频块,实现 2 倍推理加速。Next Forcing 在 PhyWorld(一个评估视频生成中物理规律遵循程度的基准测试)上也展示了显著的改进,并在通用视频预训练上实现了超过 50% 的 FVD 降低。
查看原文
查看缓存全文

缓存时间: 2026/06/10 13:44

论文页面 - Next Forcing: 基于多块预测的因果世界建模

来源:https://huggingface.co/papers/2606.11187

摘要

Next Forcing 引入了一种多块预测框架,能加速自回归视频生成的训练与推理,同时提升准确率及对物理规律的遵循程度。

自回归视频生成(https://huggingface.co/papers?q=Autoregressive%20video%20generation)已成为世界动作模型(World Action Models,WAMs)的一种强大范式。然而,现有方法存在训练收敛慢、收敛精度有限的问题——尤其是在高帧率下,因为训练监督仅局限于当前块,缺乏对未来动态的显式信号;同时,迭代式视频去噪(https://huggingface.co/papers?q=video%20denoising)也导致推理速度缓慢。本文提出 Next Forcing,一种用于因果世界建模(https://huggingface.co/papers?q=causal%20world%20modeling)的多块预测(MCP)框架,能够实现更快的训练、更高的精度和加速的推理。受大语言模型中多 token 预测的启发,Next Forcing 引入了一种 MCP 训练目标:为主模型配备轻量级辅助 MCP 模块,使其能够同时去噪多个未来时间范围(https://huggingface.co/papers?q=temporal%20horizons)(next^1、next^2、next^3 块)的视频块。这些 MCP 模块在不同预测深度之间形成因果链(https://huggingface.co/papers?q=causal%20chain),利用从主模型多层融合的中间特征来预测未来动态,使得近期预测能够为远期预测提供信息,并为主模型提供密集的多尺度时间监督(https://huggingface.co/papers?q=multi-scale%20temporal%20supervision)。在训练过程中,MCP 模块显著加速收敛并提高收敛精度,尤其是在高帧率下:在 50 fps 时,Next Forcing 在 5k 训练步数上相比 LingBot-VA 取得了 93.1% 的相对提升,收敛速度提升 2.3 倍,并在 RoboTwin 基准(Clean/Random 上分别达到 94.1%/93.5%)上取得了新的最佳结果。在推理时,可以保留 MCP 模块,使其与当前块并行预测下一视频块,从而实现 2 倍推理加速(https://huggingface.co/papers?q=inference%20acceleration)。Next Forcing 还在 PhyWorld(https://huggingface.co/papers?q=PhyWorld)——一个评估视频生成中物理规律遵循程度的基准——上展现出显著改进,并在通用视频预训练中将 FVD(https://huggingface.co/papers?q=FVD)降低了 50% 以上。

查看 arXiv 页面(https://arxiv.org/abs/2606.11187)查看 PDF(https://arxiv.org/pdf/2606.11187)项目页面(https://gangweix.github.io/next-forcing/)GitHub29(https://github.com/gangweix/next-forcing)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.11187)

在您的 agent 中获取本文:

hf papers read 2606.11187

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

没有模型链接到本文

请在模型 README.md 中引用 arxiv.org/abs/2606.11187 以从本页面链接。

引用本文的数据集0

没有数据集链接到本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.11187 以从本页面链接。

引用本文的 Space0

没有 Space 链接到本文

请在 Space README.md 中引用 arxiv.org/abs/2606.11187 以从本页面链接。

包含本文的收藏集0

没有收藏集包含本文

请将本文添加到收藏集(https://huggingface.co/new-collection)以从本页面链接。

相似文章

YoCausal: 视频生成距离世界模型有多远?因果视角

Hugging Face Daily Papers

本文介绍了YoCausal,一个基于认知科学中的违反预期(Violation of Expectation)范式的基准,用于评估视频扩散模型是否真正理解因果关系,还是仅仅过拟合于时间模式。对13个最先进模型的评估显示,与人类级别的因果认知相比,存在显著差距。

流式力控视频生成

Hugging Face Daily Papers

StreamForce 是一种因果统一视频生成模型,通过蒸馏流水线和自回归架构,为时变力提供实时、基于物理的响应,在力的遵循度和运动真实性方面达到了最先进的性能。