AnyFlow:基于在策略流图蒸馏的任意步长视频扩散模型
摘要
AnyFlow 提出了一种新颖的任意步长视频扩散蒸馏框架,通过流图过渡学习和反向模拟优化完整的 ODE 采样轨迹,在匹配甚至超越基于一致性模型的同时,能够随采样步数预算进行扩展。
查看缓存全文
缓存时间: 2026/05/14 04:17
论文页面 - AnyFlow: 基于同策略流映射蒸馏的任意步数视频扩散模型
来源: https://huggingface.co/papers/2605.13724
摘要
AnyFlow 提出了一种新颖的任意步数视频扩散蒸馏框架,它通过流映射过渡学习和反向模拟技术优化完整的 ODE 采样轨迹,从而改进了一致性蒸馏。
少步视频生成(https://huggingface.co/papers?q=video%20generation) 已通过一致性蒸馏(https://huggingface.co/papers?q=consistency%20distillation) 取得显著进展。然而,一致性蒸馏模型在测试时分配更多采样步数时,性能往往会下降,这限制了其在任意步数视频扩散中的有效性。此局限性源于一致性蒸馏(https://huggingface.co/papers?q=consistency%20distillation) 将原始概率流 ODE 轨迹替换为一致性采样轨迹,削弱了 ODE 采样(https://huggingface.co/papers?q=ODE%20sampling) 令人期望的测试时扩展行为。为解决此问题,我们引入了 AnyFlow,这是首个基于流映射(https://huggingface.co/papers?q=flow%20maps) 的任意步数视频扩散蒸馏框架。AnyFlow 并非仅针对少数固定采样步数蒸馏模型,而是优化完整的 ODE 采样(https://huggingface.co/papers?q=ODE%20sampling) 轨迹。为此,我们将蒸馏目标从端点一致性映射 (zₜ → z₀) 转变为任意时间间隔上的流映射过渡学习 (zₜ → zᵣ)。我们进一步提出了流映射反向模拟,它将完整的欧拉展开(https://huggingface.co/papers?q=Euler%20rollout) 分解为捷径流映射过渡,从而实现高效的同策略蒸馏(https://huggingface.co/papers?q=on-policy%20distillation),减少测试时误差(即少步采样中的离散化误差(https://huggingface.co/papers?q=discretization%20error) 和因果生成(https://huggingface.co/papers?q=causal%20generation) 中的曝光偏差(https://huggingface.co/papers?q=exposure%20bias))。在双向和因果架构上,从 1.3B 到 14B 参数规模的广泛实验表明,AnyFlow 在少步场景下性能达到或超越基于一致性的方法,并且随着采样步数预算的增加而扩展。
查看 arXiv 页面 (https://arxiv.org/abs/2605.13724) 查看 PDF (https://arxiv.org/pdf/2605.13724) 项目页面 (https://nvlabs.github.io/AnyFlow/) GitHub (https://github.com/NVlabs/AnyFlow) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.13724)
引用此论文的模型0
无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.13724 以从此页面关联。
引用此论文的数据集0
无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.13724 以从此页面关联。
引用此论文的 Space0
无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.13724 以从此页面关联。
包含此论文的收藏集0
无收藏集包含此论文
请将此论文添加至收藏集(https://huggingface.co/new-collection)以从此页面关联。
相似文章
Flow-OPD:用于流匹配模型的对策蒸馏
Flow-OPD 是一篇研究论文,介绍了一种用于流匹配文生图模型的两阶段对策蒸馏框架。基于 Stable Diffusion 3.5 Medium,该框架显著提升了生成质量和对齐指标。
面向自回归视频生成的在线策略对抗流蒸馏
提出对抗流蒸馏(AFD),用于将异质黑盒视频生成模型蒸馏为自回归学生模型,采用在线策略反馈和前向过程流匹配更新。
@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了 AnyFlow 首个任意步数视频扩散模型,可生成高质量文本...
NVIDIA 发布了 AnyFlow,这是首个用于文本到视频生成的任意步数视频扩散模型,允许在推理预算(4 到 50 步)之间实现平滑的质量缩放。
D-OPSD:面向连续微调步骤蒸馏扩散模型的在线策略自蒸馏
本文介绍了 D-OPSD,一种用于步骤蒸馏扩散模型的新型训练范式,能够在监督微调过程中实现在线策略自蒸馏。该方法使模型能够在不损害其高效少步推理能力的前提下,学习新概念或新风格。
FlowLM: 基于扩散-流适配的少步语言建模
FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。