SANA-WM: 高效分钟级世界建模与混合线性扩散Transformer
摘要
SANA-WM是一个拥有26亿参数的开源世界模型,能生成高保真720p分钟级视频,支持精确相机控制,在达到工业级质量的同时显著降低计算需求。
查看缓存全文
缓存时间: 2026/05/15 04:23
论文页面 - SANA-WM:使用混合线性扩散变压器的高效分钟级世界建模
来源:https://huggingface.co/papers/2605.15178
摘要
SANA-WM是一个高效的2.6B参数世界模型,可生成高保真720p视频并实现精确相机控制,达到工业级质量,同时通过混合注意力、双相机分支、两阶段生成和稳健标注流程显著降低计算需求。
我们推出SANA-WM,一个高效的2.6B参数开源世界模型(https://huggingface.co/papers?q=world%20model),原生训练用于一分钟生成,合成高保真、720p、分钟级视频并实现精确相机控制(https://huggingface.co/papers?q=camera%20control)。SANA-WM的视觉质量可与LingBot-World和HY-WorldPlay等大规模工业基线相媲美,同时显著提升效率。四个核心设计驱动我们的架构:(1)混合线性注意力(https://huggingface.co/papers?q=Hybrid%20Linear%20Attention)将逐帧门控DeltaNet(https://huggingface.co/papers?q=Gated%20DeltaNet)(GDN)与softmax注意力(https://huggingface.co/papers?q=softmax%20attention)相结合,实现内存高效的长上下文建模。(2)双分支相机控制(https://huggingface.co/papers?q=Camera%20Control)确保精确的6自由度轨迹(https://huggingface.co/papers?q=6-DoF%20trajectory)遵循。(3)两阶段生成流程(https://huggingface.co/papers?q=Two-Stage%20Generation%20Pipeline)将长视频精炼器应用于第一阶段输出,提高序列的质量和一致性。(4)稳健标注流程从公开视频中提取精确的公制尺度6自由度相机姿态,产生高质量、时空一致的动作标签。在这些设计的驱动下,SANA-WM在数据、训练计算和推理硬件上展现出卓越的效率:仅使用约21.3万段带公制尺度姿态监督(https://huggingface.co/papers?q=metric-scale%20pose%20supervision)的公开视频片段,在64块H100上15天内完成训练,并在单GPU上生成每段60秒剪辑;其蒸馏变体(https://huggingface.co/papers?q=distilled%20variant)可在单块RTX 5090上通过NVFP4量化(https://huggingface.co/papers?q=NVFP4%20quantization)部署,在34秒内去噪一段60秒720p剪辑。在我们的一分钟世界模型基准测试中,SANA-WM比先前的开源基线展现出更强的动作跟随准确性,并在可扩展世界模型(https://huggingface.co/papers?q=world%20model)方面以36倍的吞吐量实现相当的视觉质量。
查看arXiv页面(https://arxiv.org/abs/2605.15178)查看PDF(https://arxiv.org/pdf/2605.15178)项目页面(https://nvlabs.github.io/Sana/WM/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.15178)
在您的代理中获取此论文:
hf papers read 2605.15178
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.15178即可从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.15178即可从此页面链接。
引用此论文的Space0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.15178即可从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将本论文添加到收藏(https://huggingface.co/new-collection)即可从此页面链接。
相似文章
Efficient-Large-Model/SANA-WM_bidirectional
SANA-WM 是一个高效的 2.6B 参数开源世界模型,用于分钟级视频生成并具备精确的相机控制。它采用混合线性扩散变换器和两阶段流水线,从图像和文本提示生成 720p 视频。
SANA-WM,一个26亿参数的开源世界模型,可生成1分钟720p视频
SANA-WM是一个26亿参数的开源世界模型,能够生成1分钟720p视频。
SANA-Video:基于块线性扩散变压器的高效视频生成
SANA-Video是一个小型扩散模型,利用线性注意力和恒定内存KV缓存,高效生成高分辨率、长时长的视频,以显著更低的成本和更快的速度实现与现有模型相媲美的性能。
@songhan_mit: 探索SANA World Model,采用混合线性注意力,高效且快速!
SANA World Model是一个新的人工智能模型,采用混合线性注意力,以实现高效和快速。
minWM:用于实时交互式视频世界模型的全栈开源框架
minWM 是一个全栈开源框架,可将双向视频扩散模型转换为实时交互式视频世界模型,支持可控相机、低延迟推演和模块化架构。