LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型

Hugging Face Daily Papers 论文

摘要

LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。

本文关注流匹配模型与人类偏好的对齐问题。一种有前景的方法是通过直接反向传播奖励梯度经过流匹配的可微生成过程进行微调。然而,通过长轨迹反向传播会导致过高的内存成本和梯度爆炸。因此,直接梯度方法难以更新早期生成步骤,而这些步骤对于确定最终图像的全局结构至关重要。为解决此问题,我们提出LeapAlign,一种降低计算成本并实现从奖励到早期生成步骤直接梯度传播的微调方法。具体来说,我们通过设计两个连续跳跃将长轨迹缩短为仅两步,每个跳跃跳过多个ODE采样步骤并单步预测未来的潜在变量。通过随机化跳跃的开始和结束时间步,LeapAlign可在任意生成步骤实现高效稳定的模型更新。为了更好地利用这些缩短的轨迹,我们为那些与长生成路径更一致的轨迹分配更高的训练权重。为进一步增强梯度稳定性,我们降低了大梯度项的权重,而不是像先前工作那样完全移除它们。在微调Flux模型时,LeapAlign在各项指标上始终优于基于GRPO和最先进的直接梯度方法,实现了更优的图像质量和图像-文本对齐。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - LeapAlign:通过构建两步轨迹在任何生成步骤中实现流匹配模型的后训练

来源:https://huggingface.co/papers/2604.15311

摘要

LeapAlign通过降低计算成本并实现通过缩短的轨迹步骤进行稳定的梯度传播,同时保持与人类偏好的一致性,改进了流匹配模型的微调。

本文聚焦于流匹配模型与人类偏好的对齐。一种有前景的方法是通过流匹配的可微生成过程直接反向传播奖励梯度进行微调。然而,通过长轨迹进行反向传播会导致过高的内存成本和梯度爆炸。因此,直接梯度方法难以更新早期生成步骤,而这些步骤对于确定最终图像的整体结构至关重要。为了解决这个问题,我们提出了LeapAlign,这是一种微调方法,它降低了计算成本,并实现了从奖励到早期生成步骤的直接梯度传播。具体来说,我们将长轨迹缩短为仅两步,通过设计两个连续的跳跃,每个跳跃跳过多个ODE采样步骤,并单步预测未来的潜在变量。通过随机化跳跃的起始和结束时间步,LeapAlign在任何生成步骤上都能实现高效且稳定的模型更新。为了更好地利用这些缩短的轨迹,我们为那些与长生成路径更一致的轨迹分配更高的训练权重。为了进一步增强梯度稳定性,我们降低了大范数梯度项的权重,而不是像之前的工作那样完全移除它们。在微调Flux模型时,LeapAlign在各种指标上始终优于最先进的基于GRPO和直接梯度方法,实现了卓越的图像质量和图像-文本对齐

查看arXiv页面查看PDF项目页面添加到收藏

在你的代理中获取此论文:

hf papers read 2604\.15311

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的README.md中引用arxiv.org/abs/2604.15311,即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用arxiv.org/abs/2604.15311,即可从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space的README.md中引用arxiv.org/abs/2604.15311,即可从此页面链接。

包含此论文的收藏1

相似文章

轨迹即师:通过能量导航蒸馏实现少步离散流匹配

Hugging Face Daily Papers

本文介绍了轨迹塑造离散流匹配(TS-DFM),该方法以引导式导航取代盲目随机跳跃,显著提升了文本生成效率并降低了计算成本。与传统多步基线相比,该方法在保持推理成本不变的同时,实现了更低的困惑度和更快的速度。

探索Flow Matching中奖励反向传播的设计空间

Hugging Face Daily Papers

FlowBP提出了一个统一的代理轨迹框架,通过奖励反向传播将流匹配模型与人类偏好对齐,减少了内存使用和梯度链式传递,同时在多个文本到图像模型上保持了性能。

FlowLM: 基于扩散-流适配的少步语言建模

arXiv cs.CL

FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。