轨迹即师:通过能量导航蒸馏实现少步离散流匹配

Hugging Face Daily Papers 论文

摘要

本文介绍了轨迹塑造离散流匹配(TS-DFM),该方法以引导式导航取代盲目随机跳跃,显著提升了文本生成效率并降低了计算成本。与传统多步基线相比,该方法在保持推理成本不变的同时,实现了更低的困惑度和更快的速度。

离散流匹配通过迭代将噪声词元转换为连贯语言来生成文本,但这可能需要数百次前向传播。蒸馏技术利用多步轨迹训练学生模型,使其能够在少量步骤内复现该过程。当学生模型表现不佳时,惯常解释是其容量不足。我们持相反观点:瓶颈在于轨迹,而非学生模型本身。每条训练轨迹都是通过一连串未经过序列质量评估的盲目随机跳跃构建的;早期中间步骤的一次糟糕决策会传播至后续步骤,然而学生模型却必须模仿这一结果。轨迹塑造离散流匹配(TS-DFM)用引导式导航取代了这些盲目跳跃:一个轻量级能量罗盘会在每个中间点评估候选续写内容,选择最连贯的一个。所有塑造过程仅在训练阶段进行;推理成本保持不变。在 170M 参数语言建模任务上,经过塑造的 8 步学生模型相比 1,024 步教师模型实现了 32% 更低的困惑度,同时速度快 128 倍,且收益在不同源分布以及三个规模递增的评估器上保持一致。TS-DFM 取得了优于我们对比的所有离散生成基线的困惑度表现,其中包括那些在 6 倍数据量上训练或使用 5 倍更大模型的方法。
查看原文
查看缓存全文

缓存时间: 2026/05/11 18:55

论文页面 - Trajectory as the Teacher: Few-Step Discrete Flow Matching via Energy-Navigated Distillation

来源:https://huggingface.co/papers/2605.07924

摘要

结合轨迹引导的离散流匹配通过将随机跳跃替换为引导式导航,提升了文本生成效率。与传统方法相比,它在显著降低计算需求的同时实现了更优的性能。

离散流匹配 (https://huggingface.co/papers?q=Discrete%20flow%20matching) 通过迭代将噪声 token 转化为连贯的语言来生成文本,但可能需要数百次前向传播 (https://huggingface.co/papers?q=forward%20passes)。蒸馏 (https://huggingface.co/papers?q=Distillation) 利用多步轨迹 (https://huggingface.co/papers?q=multi-step%20trajectory) 来训练学生模型,使其仅需几步即可复现该过程。当学生模型表现不佳时,通常的解释是模型容量不足。我们则提出相反的观点:瓶颈在于轨迹,而非学生模型。每条训练轨迹都是通过一连串盲目的随机跳跃 (https://huggingface.co/papers?q=stochastic%20jumps) 构建的,期间并未对序列质量进行评估;早期中间点的单个错误决策会传播至后续步骤,但学生模型仍必须模仿该结果。轨迹形离散流匹配 (https://huggingface.co/papers?q=Discrete%20Flow%20Matching) (TS-DFM) 用引导式导航取代了这些盲目跳跃:一个轻量级的能量罗盘 (https://huggingface.co/papers?q=energy%20compass) 在每个中间点评估候选续写内容,并选择最连贯的选项。所有轨迹塑形仅在训练阶段进行;推理成本 (https://huggingface.co/papers?q=inference%20cost) 保持不变。在 1.7 亿参数的语言建模 (https://huggingface.co/papers?q=language%20modeling) 任务上,经过塑形的学生模型仅需 8 步,其困惑度 (https://huggingface.co/papers?q=perplexity) 比 1024 步的教师模型低 32%,同时速度快 128 倍。该收益在不同的源分布和三个规模递增的评估器上均保持一致。TS-DFM 在我们对比的所有离散生成基线中取得了最佳的困惑度 (https://huggingface.co/papers?q=perplexity),甚至优于那些使用 6 倍数据训练或 5 倍大模型的方法。

查看 arXiv 页面 (https://arxiv.org/abs/2605.07924) 查看 PDF (https://arxiv.org/pdf/2605.07924) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.07924)

在你的 agent 中获取此论文:

hf papers read 2605\.07924

还没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.07924 即可在此页面显示链接。

引用此论文的数据集 0

暂无数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.07924 即可在此页面显示链接。

引用此论文的 Spaces 0

暂无 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.07924 即可在此页面显示链接。

包含此论文的合集 0

暂无合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 即可在此页面显示链接。

相似文章

LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型

Hugging Face Daily Papers

LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。

归一化轨迹模型

Hugging Face Daily Papers

本文介绍了归一化轨迹模型(NTM),这是一种基于扩散生成的新颖方法,它将反向步骤建模为具有精确似然训练的有条件归一化流。NTM 仅需四个步骤即可实现高质量的文本到图像生成,同时保留了似然框架,在标准基准测试中优于基线方法。

FlowLM: 基于扩散-流适配的少步语言建模

arXiv cs.CL

FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。