Efficient-Large-Model/SANA-WM_bidirectional
摘要
SANA-WM 是一个高效的 2.6B 参数开源世界模型,用于分钟级视频生成并具备精确的相机控制。它采用混合线性扩散变换器和两阶段流水线,从图像和文本提示生成 720p 视频。
查看缓存全文
缓存时间: 2026/05/20 20:26
Efficient-Large-Model/SANA-WM_bidirectional · Hugging Face
Source: https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional
https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#sana-wm-bidirectionalSANA-WM (Bidirectional)
SANA-WM 是一个高效的开源世界模型,原生训练用于一分钟级生成。此处发布的双向检查点是一个 26 亿参数的图像到视频扩散变换器,可合成 720p、分钟级视频,并支持精确的六自由度相机控制,配合 LTX-2 sink-bidirectional Euler 精炼器实现高保真解码。
架构由四个核心设计驱动:
- 混合线性注意力 —— 每 N 个块采用帧级 Gated DeltaNet 与 softmax 注意力结合,实现内存高效的长上下文建模。
- 双分支相机控制 —— 独立的主分支和相机分支实现精确的逐帧轨迹跟随。
- 两阶段生成流水线 —— 在 Stage-1 潜变量之上拼接长视频精炼器,提升质量和时间一致性。
- 鲁棒标注流水线 —— 从公开视频语料库中提取公制尺度的六自由度相机姿态,生成时空一致的动作监督。
论文:https://arxiv.org/abs/2605.15178
@article{zhu2026sanawm, title = {{SANA-WM}: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer}, author = {Zhu, Haoyi and Liu, Haozhe and Zhao, Yuyang and Ye, Tian and Chen, Junsong and Yu, Jincheng and He, Tong and Han, Song and Xie, Enze}, journal = {arXiv preprint arXiv:2605.15178}, year = {2026}, }
https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#repository-layout仓库布局
| 组件 | 仓库路径 | 大小 |
|---|---|---|
| Sana DiT(Stage 1) | dit/sana\_wm\_1600m\_720p\.safetensors | 10 GB |
| LTX-2 VAE(diffusers) | vae/ | 2 GB |
| LTX-2 精炼器(Stage 2) | refiner/refiner\.safetensors | 41 GB |
| Gemma 文本编码器(用于精炼器) | refiner/text\_encoder/ | 46 GB |
| 推理配置文件 | config\.yaml | — |
Sana 文本编码器(gemma\-2\-2b\-it)不包含在此仓库中——它将按需从公开的 Hugging Face 镜像获取。
https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#usage使用
python inference_video_scripts/inference_sana_wm.py \ --image asset/sana_wm/demo_0.png \ --prompt asset/sana_wm/demo_0.txt \ --action "w-80,jw-40,w-40,lw-60,w-100" \ --translation_speed 0.055 \ --rotation_speed_deg 1.2 \ --num_frames 321 \ --output_dir results/demo
权重在首次使用时从此仓库获取。添加 \-\-no\_refiner 可跳过 LTX-2 精炼器,改用 Sana VAE 解码 Stage-1 潜变量。如需完全离线运行,可通过 \-\-config / \-\-model\_path / \-\-refiner\_checkpoint / \-\-refiner\_gemma\_root 覆盖为本地路径。
https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#inputs输入
| 参数 | 格式 |
|---|---|
\-\-image | RGB 图像(任何 PIL 可读格式)——用作第一帧。 |
\-\-prompt | 包含条件提示的 UTF-8 文本文件。 |
\-\-camera | NumPy \.npy,形状为 \(F, 4, 4\) —— 逐帧相机到世界矩阵。 |
\-\-action | WASD/IJKL DSL,例如 "w\-80,jw\-40,w\-40,lw\-60,w\-100"。我们将其展开为 \(F\+1, 4, 4\) 轨迹。与 \-\-camera 互斥。 |
\-\-intrinsics | 可选。形状为 \(3, 3\)、\(F, 3, 3\) 或 \(4,\) 的 \.npy 文件。如果省略,我们使用 Pi3X 从 \-\-image 估计内参,并在生成的 FOV 超出 \[25°, 120°\] 范围时中止。 |
输出帧尺寸固定为 704 x 1280;输入图像将保持宽高比缩放并中心裁剪至该分辨率。
https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#license许可证
以 Apache 2.0 许可证发布。捆绑的 LTX-2 精炼器和 VAE 继承 LTX-2 上游许可证。
相似文章
SANA-WM: 高效分钟级世界建模与混合线性扩散Transformer
SANA-WM是一个拥有26亿参数的开源世界模型,能生成高保真720p分钟级视频,支持精确相机控制,在达到工业级质量的同时显著降低计算需求。
SANA-WM,一个26亿参数的开源世界模型,可生成1分钟720p视频
SANA-WM是一个26亿参数的开源世界模型,能够生成1分钟720p视频。
SANA-Video:基于块线性扩散变压器的高效视频生成
SANA-Video是一个小型扩散模型,利用线性注意力和恒定内存KV缓存,高效生成高分辨率、长时长的视频,以显著更低的成本和更快的速度实现与现有模型相媲美的性能。
minWM:用于实时交互式视频世界模型的全栈开源框架
minWM 是一个全栈开源框架,可将双向视频扩散模型转换为实时交互式视频世界模型,支持可控相机、低延迟推演和模块化架构。
@songhan_mit: 探索SANA World Model,采用混合线性注意力,高效且快速!
SANA World Model是一个新的人工智能模型,采用混合线性注意力,以实现高效和快速。