minWM:用于实时交互式视频世界模型的全栈开源框架

Hugging Face Daily Papers 论文

摘要

minWM 是一个全栈开源框架,可将双向视频扩散模型转换为实时交互式视频世界模型,支持可控相机、低延迟推演和模块化架构。

最近的视频扩散基础模型在高质量视频生成方面取得了显著进展,但将其转化为实时交互式视频世界模型仍具挑战。交互式世界模型需要可控、因果且低延迟的推演,这在实际中要求一个完整的流水线,涵盖数据构建、可控微调、自回归训练、少步蒸馏和流式推理。在这项工作中,我们提出了 minWM,一个用于构建实时交互式视频世界模型的全栈开源框架。minWM 提供端到端流水线,可将现有的双向 T2V/TI2V 视频基础模型转换为相机可控的少步自回归世界模型。具体来说,minWM 首先对带有相机控制的双向视频扩散模型进行微调,然后应用 Causal Forcing / Causal Forcing++ 流水线(包括 AR 扩散训练、因果 ODE 或因果一致性蒸馏,以及非对称 DMD),将其蒸馏为少步自回归生成器以实现低延迟推演。该框架是模块化且架构可扩展的:我们在代表性开源骨干网络上进行了实例化,包括 Wan2.1-T2V-1.3B 和 HY1.5-TI2V-8B,涵盖了基于交叉注意力的条件注入和 MMDiT 风格架构。minWM 还支持将现有视频世界模型(如 HY-WorldPlay)适配到新的数据分布、训练策略和延迟目标。除了发布可运行脚本、检查点、文档和推理代码外,我们还提供了关于相机轨迹质量、可控性训练步数和最小批次要求的实用消融实验。我们希望 minWM 能作为构建和适配实时交互式视频世界模型的可复现且可扩展的配方。 项目页面:[https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
查看原文
查看缓存全文

缓存时间: 2026/05/29 02:59

论文页面 - minWM:用于实时交互式视频世界模型的全栈开源框架

来源:https://huggingface.co/papers/2605.30263 作者:

,

,

,

,

,

,

,

,

,

,

摘要

本文提出了一个全面的框架,通过微调和蒸馏技术,将双向视频扩散模型转换为具有可控、因果和低延迟能力的实时交互式世界模型。

近期视频扩散基础模型(https://huggingface.co/papers?q=video%20diffusion%20foundation%20models)在高品质视频生成方面取得了显著进展,但将其转化为实时交互式视频世界模型仍具挑战性。交互式世界模型(https://huggingface.co/papers?q=Interactive%20world%20models)需要具备可控、因果和低延迟的展开能力(https://huggingface.co/papers?q=low-latency%20rollout),这在实际应用中需要一整套流程,涵盖数据构建、可控微调、自回归训练、少步蒸馏以及流式推理。在这项工作中,我们提出了minWM,一个用于构建实时交互式视频世界模型的全栈开源框架。minWM提供端到端的流程,将现有的双向T2V/TI2V视频基础模型转换为可由相机控制的少步自回归世界模型。具体来说,minWM首先使用相机控制微调一个双向视频扩散模型(https://huggingface.co/papers?q=bidirectional%20video%20diffusion%20model),然后应用因果强制(Causal Forcing)(https://huggingface.co/papers?q=Causal%20Forcing)/因果强制++(Causal Forcing++)流程,包括AR扩散训练、因果常微分方程(https://huggingface.co/papers?q=causal%20ODE)或因果一致性蒸馏(https://huggingface.co/papers?q=causal%20consistency%20distillation),以及非对称DMD(https://huggingface.co/papers?q=asymmetric%20DMD),将其蒸馏为少步自回归生成器(https://huggingface.co/papers?q=few-step%20autoregressive%20generator),以实现低延迟展开(https://huggingface.co/papers?q=low-latency%20rollout)。该框架具有模块化和架构可扩展性:我们在代表性的开放骨干网络上实例化该框架,包括Wan2.1-T2V-1.3B和HY1.5-TI2V-8B,覆盖了基于交叉注意力的条件注入(https://huggingface.co/papers?q=cross-attention-based%20condition%20injection)和MMDiT风格架构(https://huggingface.co/papers?q=MMDiT-style%20architectures)。minWM还支持将现有视频世界模型(如HY-WorldPlay)适配到新的数据分布、训练策略和延迟目标上。除了发布可运行的脚本、检查点、文档和推理代码外,我们还提供了关于相机轨迹质量、可控性训练步骤以及最小批次大小要求的实用消融实验。我们希望minWM能够作为构建和适配实时交互式视频世界模型的可复现且可扩展的配方。项目页面:[https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)

查看arXiv页面 (https://arxiv.org/abs/2605.30263) 查看PDF (https://arxiv.org/pdf/2605.30263) GitHub (https://github.com/shengshu-ai/minWM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30263)

在您的智能体中获取此论文:

hf papers read 2605.30263

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

在模型README.md中引用arxiv.org/abs/2605.30263以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集README.md中引用arxiv.org/abs/2605.30263以从此页面链接。

引用此论文的Spaces0

没有Space链接到此论文

在Space README.md中引用arxiv.org/abs/2605.30263以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

Efficient-Large-Model/SANA-WM_bidirectional

Hugging Face Models Trending

SANA-WM 是一个高效的 2.6B 参数开源世界模型,用于分钟级视频生成并具备精确的相机控制。它采用混合线性扩散变换器和两阶段流水线,从图像和文本提示生成 720p 视频。

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

Hugging Face Daily Papers

τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。