LeapAlign：通过构建两步轨迹在任意生成步骤后训练流匹配模型

Hugging Face Daily Papers 2026/04/16 00:00 论文

flow-matching post-training alignment gradient-optimization image-generation fine-tuning reward-modeling

摘要

LeapAlign是一种后训练方法，通过两步轨迹捷径降低计算成本，同时实现梯度稳定传播到早期生成步骤，从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时，该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。

本文关注流匹配模型与人类偏好的对齐问题。一种有前景的方法是通过直接反向传播奖励梯度经过流匹配的可微生成过程进行微调。然而，通过长轨迹反向传播会导致过高的内存成本和梯度爆炸。因此，直接梯度方法难以更新早期生成步骤，而这些步骤对于确定最终图像的全局结构至关重要。为解决此问题，我们提出LeapAlign，一种降低计算成本并实现从奖励到早期生成步骤直接梯度传播的微调方法。具体来说，我们通过设计两个连续跳跃将长轨迹缩短为仅两步，每个跳跃跳过多个ODE采样步骤并单步预测未来的潜在变量。通过随机化跳跃的开始和结束时间步，LeapAlign可在任意生成步骤实现高效稳定的模型更新。为了更好地利用这些缩短的轨迹，我们为那些与长生成路径更一致的轨迹分配更高的训练权重。为进一步增强梯度稳定性，我们降低了大梯度项的权重，而不是像先前工作那样完全移除它们。在微调Flux模型时，LeapAlign在各项指标上始终优于基于GRPO和最先进的直接梯度方法，实现了更优的图像质量和图像-文本对齐。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:28

论文页面 - LeapAlign：通过构建两步轨迹在任何生成步骤中实现流匹配模型的后训练

来源：https://huggingface.co/papers/2604.15311

摘要

LeapAlign通过降低计算成本并实现通过缩短的轨迹步骤进行稳定的梯度传播，同时保持与人类偏好的一致性，改进了流匹配模型的微调。

本文聚焦于流匹配模型与人类偏好的对齐。一种有前景的方法是通过流匹配的可微生成过程直接反向传播奖励梯度进行微调。然而，通过长轨迹进行反向传播会导致过高的内存成本和梯度爆炸。因此，直接梯度方法难以更新早期生成步骤，而这些步骤对于确定最终图像的整体结构至关重要。为了解决这个问题，我们提出了LeapAlign，这是一种微调方法，它降低了计算成本，并实现了从奖励到早期生成步骤的直接梯度传播。具体来说，我们将长轨迹缩短为仅两步，通过设计两个连续的跳跃，每个跳跃跳过多个ODE采样步骤，并单步预测未来的潜在变量。通过随机化跳跃的起始和结束时间步，LeapAlign在任何生成步骤上都能实现高效且稳定的模型更新。为了更好地利用这些缩短的轨迹，我们为那些与长生成路径更一致的轨迹分配更高的训练权重。为了进一步增强梯度稳定性，我们降低了大范数梯度项的权重，而不是像之前的工作那样完全移除它们。在微调Flux模型时，LeapAlign在各种指标上始终优于最先进的基于GRPO和直接梯度方法，实现了卓越的图像质量和图像-文本对齐。

查看arXiv页面查看PDF 项目页面添加到收藏

在你的代理中获取此论文：

hf papers read 2604\.15311

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型的README.md中引用arxiv.org/abs/2604.15311，即可从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集的README.md中引用arxiv.org/abs/2604.15311，即可从此页面链接。

引用此论文的Space0

没有Space链接此论文

在Space的README.md中引用arxiv.org/abs/2604.15311，即可从此页面链接。

LeapAlign：通过构建两步轨迹在任意生成步骤后训练流匹配模型

论文页面 - LeapAlign：通过构建两步轨迹在任何生成步骤中实现流匹配模型的后训练

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏1

相似文章

轨迹即师：通过能量导航蒸馏实现少步离散流匹配

探索Flow Matching中奖励反向传播的设计空间

FlowLM: 基于扩散-流适配的少步语言建模

Constraint-Aware Flow Matching: 面向约束采样的决策对齐端到端训练

@HuggingPapers: Stable-GFlowNet：通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 消除了不稳定的…

提交意见反馈