轨迹即师:通过能量导航蒸馏实现少步离散流匹配
摘要
本文介绍了轨迹塑造离散流匹配(TS-DFM),该方法以引导式导航取代盲目随机跳跃,显著提升了文本生成效率并降低了计算成本。与传统多步基线相比,该方法在保持推理成本不变的同时,实现了更低的困惑度和更快的速度。
查看缓存全文
缓存时间: 2026/05/11 18:55
论文页面 - Trajectory as the Teacher: Few-Step Discrete Flow Matching via Energy-Navigated Distillation
来源:https://huggingface.co/papers/2605.07924
摘要
结合轨迹引导的离散流匹配通过将随机跳跃替换为引导式导航,提升了文本生成效率。与传统方法相比,它在显著降低计算需求的同时实现了更优的性能。
离散流匹配 (https://huggingface.co/papers?q=Discrete%20flow%20matching) 通过迭代将噪声 token 转化为连贯的语言来生成文本,但可能需要数百次前向传播 (https://huggingface.co/papers?q=forward%20passes)。蒸馏 (https://huggingface.co/papers?q=Distillation) 利用多步轨迹 (https://huggingface.co/papers?q=multi-step%20trajectory) 来训练学生模型,使其仅需几步即可复现该过程。当学生模型表现不佳时,通常的解释是模型容量不足。我们则提出相反的观点:瓶颈在于轨迹,而非学生模型。每条训练轨迹都是通过一连串盲目的随机跳跃 (https://huggingface.co/papers?q=stochastic%20jumps) 构建的,期间并未对序列质量进行评估;早期中间点的单个错误决策会传播至后续步骤,但学生模型仍必须模仿该结果。轨迹形离散流匹配 (https://huggingface.co/papers?q=Discrete%20Flow%20Matching) (TS-DFM) 用引导式导航取代了这些盲目跳跃:一个轻量级的能量罗盘 (https://huggingface.co/papers?q=energy%20compass) 在每个中间点评估候选续写内容,并选择最连贯的选项。所有轨迹塑形仅在训练阶段进行;推理成本 (https://huggingface.co/papers?q=inference%20cost) 保持不变。在 1.7 亿参数的语言建模 (https://huggingface.co/papers?q=language%20modeling) 任务上,经过塑形的学生模型仅需 8 步,其困惑度 (https://huggingface.co/papers?q=perplexity) 比 1024 步的教师模型低 32%,同时速度快 128 倍。该收益在不同的源分布和三个规模递增的评估器上均保持一致。TS-DFM 在我们对比的所有离散生成基线中取得了最佳的困惑度 (https://huggingface.co/papers?q=perplexity),甚至优于那些使用 6 倍数据训练或 5 倍大模型的方法。
查看 arXiv 页面 (https://arxiv.org/abs/2605.07924) 查看 PDF (https://arxiv.org/pdf/2605.07924) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.07924)
在你的 agent 中获取此论文:
hf papers read 2605\.07924
还没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.07924 即可在此页面显示链接。
引用此论文的数据集 0
暂无数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.07924 即可在此页面显示链接。
引用此论文的 Spaces 0
暂无 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.07924 即可在此页面显示链接。
包含此论文的合集 0
暂无合集包含此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面显示链接。
相似文章
LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型
LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。
归一化轨迹模型
本文介绍了归一化轨迹模型(NTM),这是一种基于扩散生成的新颖方法,它将反向步骤建模为具有精确似然训练的有条件归一化流。NTM 仅需四个步骤即可实现高质量的文本到图像生成,同时保留了似然框架,在标准基准测试中优于基线方法。
FlowLM: 基于扩散-流适配的少步语言建模
FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。
利用流匹配捕获非平衡随机系统中的非马尔可夫动力学
本文开发了一种生成式流匹配方法,用于捕获非平衡随机系统中的非马尔可夫动力学,并展示了与马尔可夫基线相比,在Kramers首次通过时间问题上的改进预测。
自蒸馏轨迹感知玻尔兹曼建模:弥合扩散语言模型中的训练-推理差异
本文介绍了 TABOM,这是一种用于扩散语言模型的自蒸馏基于轨迹的后训练框架。该框架利用玻尔兹曼建模将训练与推理轨迹对齐,从而减轻训练-推理差异并减少灾难性遗忘。