minWM:用于实时交互式视频世界模型的全栈开源框架
摘要
minWM 是一个全栈开源框架,可将双向视频扩散模型转换为实时交互式视频世界模型,支持可控相机、低延迟推演和模块化架构。
查看缓存全文
缓存时间: 2026/05/29 02:59
论文页面 - minWM:用于实时交互式视频世界模型的全栈开源框架
来源:https://huggingface.co/papers/2605.30263 作者:
,
,
,
,
,
,
,
,
,
,
摘要
本文提出了一个全面的框架,通过微调和蒸馏技术,将双向视频扩散模型转换为具有可控、因果和低延迟能力的实时交互式世界模型。
近期视频扩散基础模型(https://huggingface.co/papers?q=video%20diffusion%20foundation%20models)在高品质视频生成方面取得了显著进展,但将其转化为实时交互式视频世界模型仍具挑战性。交互式世界模型(https://huggingface.co/papers?q=Interactive%20world%20models)需要具备可控、因果和低延迟的展开能力(https://huggingface.co/papers?q=low-latency%20rollout),这在实际应用中需要一整套流程,涵盖数据构建、可控微调、自回归训练、少步蒸馏以及流式推理。在这项工作中,我们提出了minWM,一个用于构建实时交互式视频世界模型的全栈开源框架。minWM提供端到端的流程,将现有的双向T2V/TI2V视频基础模型转换为可由相机控制的少步自回归世界模型。具体来说,minWM首先使用相机控制微调一个双向视频扩散模型(https://huggingface.co/papers?q=bidirectional%20video%20diffusion%20model),然后应用因果强制(Causal Forcing)(https://huggingface.co/papers?q=Causal%20Forcing)/因果强制++(Causal Forcing++)流程,包括AR扩散训练、因果常微分方程(https://huggingface.co/papers?q=causal%20ODE)或因果一致性蒸馏(https://huggingface.co/papers?q=causal%20consistency%20distillation),以及非对称DMD(https://huggingface.co/papers?q=asymmetric%20DMD),将其蒸馏为少步自回归生成器(https://huggingface.co/papers?q=few-step%20autoregressive%20generator),以实现低延迟展开(https://huggingface.co/papers?q=low-latency%20rollout)。该框架具有模块化和架构可扩展性:我们在代表性的开放骨干网络上实例化该框架,包括Wan2.1-T2V-1.3B和HY1.5-TI2V-8B,覆盖了基于交叉注意力的条件注入(https://huggingface.co/papers?q=cross-attention-based%20condition%20injection)和MMDiT风格架构(https://huggingface.co/papers?q=MMDiT-style%20architectures)。minWM还支持将现有视频世界模型(如HY-WorldPlay)适配到新的数据分布、训练策略和延迟目标上。除了发布可运行的脚本、检查点、文档和推理代码外,我们还提供了关于相机轨迹质量、可控性训练步骤以及最小批次大小要求的实用消融实验。我们希望minWM能够作为构建和适配实时交互式视频世界模型的可复现且可扩展的配方。项目页面:[https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
查看arXiv页面 (https://arxiv.org/abs/2605.30263) 查看PDF (https://arxiv.org/pdf/2605.30263) GitHub (https://github.com/shengshu-ai/minWM) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.30263)
在您的智能体中获取此论文:
hf papers read 2605.30263
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到此论文
在模型README.md中引用arxiv.org/abs/2605.30263以从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集README.md中引用arxiv.org/abs/2605.30263以从此页面链接。
引用此论文的Spaces0
没有Space链接到此论文
在Space README.md中引用arxiv.org/abs/2605.30263以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
Efficient-Large-Model/SANA-WM_bidirectional
SANA-WM 是一个高效的 2.6B 参数开源世界模型,用于分钟级视频生成并具备精确的相机控制。它采用混合线性扩散变换器和两阶段流水线,从图像和文本提示生成 720p 视频。
SANA-WM: 高效分钟级世界建模与混合线性扩散Transformer
SANA-WM是一个拥有26亿参数的开源世界模型,能生成高保真720p分钟级视频,支持精确相机控制,在达到工业级质量的同时显著降低计算需求。
MultiWorld:可扩展的多智能体多视角视频世界模型
MultiWorld 是一个统一的多智能体多视角视频世界建模框架,通过多智能体条件模块与全局状态编码器,在精准控制多智能体行为的同时保持多视角一致性。
τ_0-WM: 用于机器人操作的统一视频-动作世界模型
τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。
SANA-WM,一个26亿参数的开源世界模型,可生成1分钟720p视频
SANA-WM是一个26亿参数的开源世界模型,能够生成1分钟720p视频。