NVlabs/Sana
摘要
NVlabs/Sana是一个面向效率的开源代码库,用于高分辨率图像和视频生成,包含多个模型变体及训练/推理管线。
SANA:基于线性扩散变压器的高效高分辨率图像合成
查看缓存全文
缓存时间: 2026/05/18 12:33
📚 文档 | SANA | SANA-1.5 | SANA-Sprint | SANA-Video | SANA-WM | Sol-RL 演示 | 🤗 HuggingFace | ComfyUI | SGLang | Cosmos-RL
ICLR 2025 口头报告 | ICML 2025 | ICCV 2025 亮点 | ICLR 2026 口头报告
相似文章
SANA-Video:基于块线性扩散变压器的高效视频生成
SANA-Video是一个小型扩散模型,利用线性注意力和恒定内存KV缓存,高效生成高分辨率、长时长的视频,以显著更低的成本和更快的速度实现与现有模型相媲美的性能。
Efficient-Large-Model/SANA-WM_bidirectional
SANA-WM 是一个高效的 2.6B 参数开源世界模型,用于分钟级视频生成并具备精确的相机控制。它采用混合线性扩散变换器和两阶段流水线,从图像和文本提示生成 720p 视频。
@songhan_mit: SANA Streaming: 在单张5090上进行V2V
SANA Streaming 支持在单张NVIDIA RTX 5090 GPU上进行视频到视频生成。
@songhan_mit: SANA world model的因果版本已发布,使得在单个H100上实现接近实时推理:
SANA世界模型的因果版本已发布,可在单个H100 GPU上实现接近实时的视频生成推理,并附带开源代码和演示。
LongLive-2.0:用于长视频生成的NVFP4并行基础设施
LongLive-2.0 引入了一种基于NVFP4的并行基础设施,用于长视频生成,在训练上实现了高达2.15倍的加速,推理上实现了1.84倍的加速,5B模型达到了45.7 FPS。