Efficient-Large-Model/SANA-WM_bidirectional

Hugging Face Models Trending 2026/05/18 11:14 模型

world-model video-generation diffusion-transformer image-to-video open-source huggingface

摘要

SANA-WM 是一个高效的 2.6B 参数开源世界模型，用于分钟级视频生成并具备精确的相机控制。它采用混合线性扩散变换器和两阶段流水线，从图像和文本提示生成 720p 视频。

任务: image-to-video 标签: diffusers, safetensors, text-to-video, image-to-video, camera-control, world-model, diffusion, arxiv:2605.15178, license:apache-2.0, region:us

查看原文

查看缓存全文

缓存时间: 2026/05/20 20:26

Efficient-Large-Model/SANA-WM_bidirectional · Hugging Face

Source: https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional

https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#sana-wm-bidirectionalSANA-WM (Bidirectional)

SANA-WM 是一个高效的开源世界模型，原生训练用于一分钟级生成。此处发布的双向检查点是一个 26 亿参数的图像到视频扩散变换器，可合成 720p、分钟级视频，并支持精确的六自由度相机控制，配合 LTX-2 sink-bidirectional Euler 精炼器实现高保真解码。

架构由四个核心设计驱动：

混合线性注意力 —— 每 N 个块采用帧级 Gated DeltaNet 与 softmax 注意力结合，实现内存高效的长上下文建模。
双分支相机控制 —— 独立的主分支和相机分支实现精确的逐帧轨迹跟随。
两阶段生成流水线 —— 在 Stage-1 潜变量之上拼接长视频精炼器，提升质量和时间一致性。
鲁棒标注流水线 —— 从公开视频语料库中提取公制尺度的六自由度相机姿态，生成时空一致的动作监督。

论文：https://arxiv.org/abs/2605.15178

@article{zhu2026sanawm, title = {{SANA-WM}: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer}, author = {Zhu, Haoyi and Liu, Haozhe and Zhao, Yuyang and Ye, Tian and Chen, Junsong and Yu, Jincheng and He, Tong and Han, Song and Xie, Enze}, journal = {arXiv preprint arXiv:2605.15178}, year = {2026}, }

https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#repository-layout仓库布局

组件	仓库路径	大小
Sana DiT（Stage 1）	`dit/sana\_wm\_1600m\_720p\.safetensors`	10 GB
LTX-2 VAE（diffusers）	`vae/`	2 GB
LTX-2 精炼器（Stage 2）	`refiner/refiner\.safetensors`	41 GB
Gemma 文本编码器（用于精炼器）	`refiner/text\_encoder/`	46 GB
推理配置文件	`config\.yaml`	—

Sana 文本编码器（gemma\-2\-2b\-it）不包含在此仓库中——它将按需从公开的 Hugging Face 镜像获取。

https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#usage使用

python inference_video_scripts/inference_sana_wm.py \ --image asset/sana_wm/demo_0.png \ --prompt asset/sana_wm/demo_0.txt \ --action "w-80,jw-40,w-40,lw-60,w-100" \ --translation_speed 0.055 \ --rotation_speed_deg 1.2 \ --num_frames 321 \ --output_dir results/demo

权重在首次使用时从此仓库获取。添加 \-\-no\_refiner 可跳过 LTX-2 精炼器，改用 Sana VAE 解码 Stage-1 潜变量。如需完全离线运行，可通过 \-\-config / \-\-model\_path / \-\-refiner\_checkpoint / \-\-refiner\_gemma\_root 覆盖为本地路径。

https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#inputs输入

参数	格式
`\-\-image`	RGB 图像（任何 PIL 可读格式）——用作第一帧。
`\-\-prompt`	包含条件提示的 UTF-8 文本文件。
`\-\-camera`	NumPy `\.npy`，形状为 `\(F, 4, 4\)` —— 逐帧相机到世界矩阵。
`\-\-action`	WASD/IJKL DSL，例如 `"w\-80,jw\-40,w\-40,lw\-60,w\-100"`。我们将其展开为 `\(F\+1, 4, 4\)` 轨迹。与 `\-\-camera` 互斥。
`\-\-intrinsics`	可选。形状为 `\(3, 3\)`、`\(F, 3, 3\)` 或 `\(4,\)` 的 `\.npy` 文件。如果省略，我们使用 Pi3X 从 `\-\-image` 估计内参，并在生成的 FOV 超出 `\[25°, 120°\]` 范围时中止。

输出帧尺寸固定为 704 x 1280；输入图像将保持宽高比缩放并中心裁剪至该分辨率。

https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#license许可证

以 Apache 2.0 许可证发布。捆绑的 LTX-2 精炼器和 VAE 继承 LTX-2 上游许可证。

Efficient-Large-Model/SANA-WM_bidirectional

Efficient-Large-Model/SANA-WM_bidirectional · Hugging Face

https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#sana-wm-bidirectionalSANA-WM (Bidirectional)

https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#repository-layout仓库布局

https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#usage使用

https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#inputs输入

https://huggingface.co/Efficient-Large-Model/SANA-WM_bidirectional#license许可证

相似文章

SANA-WM: 高效分钟级世界建模与混合线性扩散Transformer

SANA-WM，一个26亿参数的开源世界模型，可生成1分钟720p视频

SANA-Video：基于块线性扩散变压器的高效视频生成

minWM：用于实时交互式视频世界模型的全栈开源框架

@songhan_mit: 探索SANA World Model，采用混合线性注意力，高效且快速！

提交意见反馈