@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了 AnyFlow 首个任意步数视频扩散模型，可生成高质量文本...

X AI KOLs Following 2026/05/13 13:17 模型

video-diffusion text-to-video any-step nvidia hugging-face model-release

摘要

NVIDIA 发布了 AnyFlow，这是首个用于文本到视频生成的任意步数视频扩散模型，允许在推理预算（4 到 50 步）之间实现平滑的质量缩放。

NVIDIA 刚刚在 Hugging Face 上发布了 AnyFlow 首个任意步数视频扩散模型，能够以任意推理预算（4 步或 50 步）生成高质量的文本到视频，质量平滑缩放而不会退化。https://t.co/bT6scg98ZT

查看原文

查看缓存全文

缓存时间: 2026/05/13 18:24

NVIDIA 刚刚在 Hugging Face 上发布了 AnyFlow

首个任意步数视频扩散模型，能在任意推理预算下生成高质量文本到视频——4步或50步，质量平滑扩展而不降级。https://t.co/bT6scg98ZT

相似文章

X AI KOLs Following

NVIDIA 在 Hugging Face 上发布了一个名为 DiffusionGemma 的 26B MoE 多模态模型，采用 NVFP4 量化，在 Hopper 硬件上达到每秒超过 1100 个 token 的速度。

Hugging Face Blog

NVIDIA NeMo Automodel 与 Hugging Face Diffusers 集成，支持对扩散模型进行可扩展的分布式微调，用于图像和视频生成，支持的模型包括 FLUX.1-dev、Wan 2.1 和 HunyuanVideo。

Hugging Face Daily Papers

AnyFlow 提出了一种新颖的任意步长视频扩散蒸馏框架，通过流图过渡学习和反向模拟优化完整的 ODE 采样轨迹，在匹配甚至超越基于一致性模型的同时，能够随采样步数预算进行扩展。

X AI KOLs Timeline

斯坦福和字节跳动推出 W-Flow，一种单步生成模型，利用 Wasserstein 梯度流实现了最先进的单步 ImageNet 256x256 生成（FID 1.29），采样速度比多步扩散模型快 100 倍。

arXiv cs.AI

本文提出了一种针对视频扩散模型的后训练加速框架，将动态结构稀疏化与少步蒸馏相结合，在保持生成质量的同时实现了显著加速。