归一化轨迹模型
摘要
本文介绍了归一化轨迹模型(NTM),这是一种基于扩散生成的新颖方法,它将反向步骤建模为具有精确似然训练的有条件归一化流。NTM 仅需四个步骤即可实现高质量的文本到图像生成,同时保留了似然框架,在标准基准测试中优于基线方法。
查看缓存全文
缓存时间: 2026/05/11 02:42
论文页面 - 归一化轨迹模型
来源: https://huggingface.co/papers/2605.08078
摘要
归一化轨迹模型通过一种新颖的方法改进扩散生成模型:将每一个反向步骤建模为具有精确似然训练的可表达的条件归一化流,从而在极少的步数内实现高质量样本生成的同时,保持似然框架的完整性。
基于扩散的模型 (https://huggingface.co/papers?q=Diffusion-based%20models) 将采样过程分解为许多微小的 高斯去噪步骤 (https://huggingface.co/papers?q=Gaussian%20denoising%20steps)——当生成过程被压缩为几个粗略的转换时,这一假设会失效。现有的少步生成方法通过知识蒸馏、一致性训练或对抗目标来解决这一问题,但在此过程中牺牲了似然框架。我们引入了归一化轨迹模型(NTM),它将每一个反向步骤建模为具有精确似然训练 (https://huggingface.co/papers?q=likelihood%20training) 的可表达条件归一化流。在架构上,NTM 在每个步骤中结合了浅层可逆块 (https://huggingface.co/papers?q=invertible%20blocks),并在整个轨迹上采用深层并行预测器,形成一个端到端网络,可以从头开始训练或从预训练的流匹配模型 (https://huggingface.co/papers?q=flow-matching%20models) 中初始化。其精确的轨迹似然性进一步支持了自蒸馏 (https://huggingface.co/papers?q=self-distillation):一个在模型自身分数上训练的轻量级去噪器可以在四步内生成高质量样本。在文本到图像基准测试 (https://huggingface.co/papers?q=text-to-image%20benchmarks) 中,NTM 仅用四步采样即可匹敌或超越强大的图像生成基线方法,同时独特地保留了生成轨迹上的精确似然性。
查看 arXiv 页面 (https://arxiv.org/abs/2605.08078) 查看 PDF (https://arxiv.org/pdf/2605.08078) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08078)
在您的智能体中获取此论文:
hf papers read 2605\.08078
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无链接此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2605.08078 即可在此页面进行链接。
引用此论文的数据集 0
暂无链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.08078 即可在此页面进行链接。
引用此论文的应用空间 0
暂无链接此论文的应用空间
在应用空间的 README.md 中引用 arxiv.org/abs/2605.08078 即可在此页面进行链接。
包含此论文的收藏集 0
暂无包含此论文的收藏集
添加此论文至收藏集 (https://huggingface.co/new-collection) 即可在此页面进行链接。
相似文章
轨迹即师:通过能量导航蒸馏实现少步离散流匹配
本文介绍了轨迹塑造离散流匹配(TS-DFM),该方法以引导式导航取代盲目随机跳跃,显著提升了文本生成效率并降低了计算成本。与传统多步基线相比,该方法在保持推理成本不变的同时,实现了更低的困惑度和更快的速度。
自蒸馏轨迹感知玻尔兹曼建模:弥合扩散语言模型中的训练-推理差异
本文介绍了 TABOM,这是一种用于扩散语言模型的自蒸馏基于轨迹的后训练框架。该框架利用玻尔兹曼建模将训练与推理轨迹对齐,从而减轻训练-推理差异并减少灾难性遗忘。
超越Mode-Seeking RL:扩散语言模型的轨迹平衡后训练
本文识别了扩散语言模型奖励最大化后训练中的一种失败模式,称为“轨迹锁定”,并提出了TraFL,一种轨迹平衡目标,可提高数学和代码基准测试中的多样性和性能。
LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型
LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。
迈向光速文本生成:Nemotron-Labs扩散语言模型
NVIDIA推出Nemotron-Labs Diffusion,这是一系列扩散语言模型,可并行生成文本并迭代优化,从而提供更快的生成速度并支持修订之前的令牌。