SANA-WM: 高效分钟级世界建模与混合线性扩散Transformer

Hugging Face Daily Papers 论文

摘要

SANA-WM是一个拥有26亿参数的开源世界模型,能生成高保真720p分钟级视频,支持精确相机控制,在达到工业级质量的同时显著降低计算需求。

我们提出了SANA-WM,这是一个高效的26亿参数开源世界模型,原生训练用于一分钟生成,能够合成高保真、720p、分钟级视频,并支持精确相机控制。SANA-WM在视觉质量上达到了与LingBot-World和HY-WorldPlay等大规模工业基线相当的水平,同时显著提升了效率。四个核心设计驱动了我们的架构:(1) 混合线性注意力机制将逐帧门控DeltaNet(GDN)与softmax注意力相结合,实现内存高效的长上下文建模。(2) 双分支相机控制确保精确的六自由度轨迹遵循。(3) 两阶段生成流程对第一阶段输出应用长视频精炼器,提升序列间的质量和一致性。(4) 鲁棒的注释流水线从公开视频中提取精确的公尺度六自由度相机位姿,以生成高质量、时空一致的动作标签。在这些设计的驱动下,SANA-WM在数据、训练计算和推理硬件方面展现出卓越的效率:它仅使用sim213K(约21.3万个)带有公尺度位姿监督的公开视频片段,在64块H100上完成训练仅需15天,并且可以在单个GPU上生成每个60秒的片段;其蒸馏变体可在单个RTX 5090上部署,并采用NVFP4量化,在34秒内完成60秒720p片段的去噪。在我们的一分钟世界模型基准测试中,SANA-WM表现出比以往开源基线更强的动作跟随准确性,并在实现可比视觉质量的同时,吞吐量提升了36倍,适用于可扩展的世界建模。
查看原文
查看缓存全文

缓存时间: 2026/05/15 04:23

论文页面 - SANA-WM:使用混合线性扩散变压器的高效分钟级世界建模

来源:https://huggingface.co/papers/2605.15178

摘要

SANA-WM是一个高效的2.6B参数世界模型,可生成高保真720p视频并实现精确相机控制,达到工业级质量,同时通过混合注意力、双相机分支、两阶段生成和稳健标注流程显著降低计算需求。

我们推出SANA-WM,一个高效的2.6B参数开源世界模型(https://huggingface.co/papers?q=world%20model),原生训练用于一分钟生成,合成高保真、720p、分钟级视频并实现精确相机控制(https://huggingface.co/papers?q=camera%20control)。SANA-WM的视觉质量可与LingBot-World和HY-WorldPlay等大规模工业基线相媲美,同时显著提升效率。四个核心设计驱动我们的架构:(1)混合线性注意力(https://huggingface.co/papers?q=Hybrid%20Linear%20Attention)将逐帧门控DeltaNet(https://huggingface.co/papers?q=Gated%20DeltaNet)(GDN)与softmax注意力(https://huggingface.co/papers?q=softmax%20attention)相结合,实现内存高效的长上下文建模。(2)双分支相机控制(https://huggingface.co/papers?q=Camera%20Control)确保精确的6自由度轨迹(https://huggingface.co/papers?q=6-DoF%20trajectory)遵循。(3)两阶段生成流程(https://huggingface.co/papers?q=Two-Stage%20Generation%20Pipeline)将长视频精炼器应用于第一阶段输出,提高序列的质量和一致性。(4)稳健标注流程从公开视频中提取精确的公制尺度6自由度相机姿态,产生高质量、时空一致的动作标签。在这些设计的驱动下,SANA-WM在数据、训练计算和推理硬件上展现出卓越的效率:仅使用约21.3万段带公制尺度姿态监督(https://huggingface.co/papers?q=metric-scale%20pose%20supervision)的公开视频片段,在64块H100上15天内完成训练,并在单GPU上生成每段60秒剪辑;其蒸馏变体(https://huggingface.co/papers?q=distilled%20variant)可在单块RTX 5090上通过NVFP4量化(https://huggingface.co/papers?q=NVFP4%20quantization)部署,在34秒内去噪一段60秒720p剪辑。在我们的一分钟世界模型基准测试中,SANA-WM比先前的开源基线展现出更强的动作跟随准确性,并在可扩展世界模型(https://huggingface.co/papers?q=world%20model)方面以36倍的吞吐量实现相当的视觉质量。

查看arXiv页面(https://arxiv.org/abs/2605.15178)查看PDF(https://arxiv.org/pdf/2605.15178)项目页面(https://nvlabs.github.io/Sana/WM/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.15178)

在您的代理中获取此论文:

hf papers read 2605.15178

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.15178即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.15178即可从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.15178即可从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将本论文添加到收藏(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

Efficient-Large-Model/SANA-WM_bidirectional

Hugging Face Models Trending

SANA-WM 是一个高效的 2.6B 参数开源世界模型,用于分钟级视频生成并具备精确的相机控制。它采用混合线性扩散变换器和两阶段流水线,从图像和文本提示生成 720p 视频。