@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了 AnyFlow 首个任意步数视频扩散模型,可生成高质量文本...
摘要
NVIDIA 发布了 AnyFlow,这是首个用于文本到视频生成的任意步数视频扩散模型,允许在推理预算(4 到 50 步)之间实现平滑的质量缩放。
NVIDIA 刚刚在 Hugging Face 上发布了 AnyFlow
首个任意步数视频扩散模型,能够以任意推理预算(4 步或 50 步)生成高质量的文本到视频,质量平滑缩放而不会退化。https://t.co/bT6scg98ZT
查看缓存全文
缓存时间: 2026/05/13 18:24
NVIDIA 刚刚在 Hugging Face 上发布了 AnyFlow
首个任意步数视频扩散模型,能在任意推理预算下生成高质量文本到视频——4步或50步,质量平滑扩展而不降级。https://t.co/bT6scg98ZT
相似文章
@HuggingPapers:NVIDIA 刚刚在 Hugging Face 上发布了 NVFP4 量化的 DiffusionGemma——一个 26B MoE 多模态模型,通过并行扩散生成文本…
NVIDIA 在 Hugging Face 上发布了一个名为 DiffusionGemma 的 26B MoE 多模态模型,采用 NVFP4 量化,在 Hopper 硬件上达到每秒超过 1100 个 token 的速度。
AnyFlow:基于在策略流图蒸馏的任意步长视频扩散模型
AnyFlow 提出了一种新颖的任意步长视频扩散蒸馏框架,通过流图过渡学习和反向模拟优化完整的 ODE 采样轨迹,在匹配甚至超越基于一致性模型的同时,能够随采样步数预算进行扩展。
SANA-Video:基于块线性扩散变压器的高效视频生成
SANA-Video是一个小型扩散模型,利用线性注意力和恒定内存KV缓存,高效生成高分辨率、长时长的视频,以显著更低的成本和更快的速度实现与现有模型相媲美的性能。
FlowLM: 基于扩散-流适配的少步语言建模
FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。
@__JohnNguyen__: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……
Meta 的 FAIR 团队发布了 Flowception 的代码,这是 CVPR 2026 的一篇论文,介绍了一种非自回归视频生成框架。该框架通过交错帧插入与连续去噪,减少了误差累积和计算成本。