LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型
摘要
LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。
查看缓存全文
缓存时间: 2026/04/20 08:28
论文页面 - LeapAlign:通过构建两步轨迹在任何生成步骤中实现流匹配模型的后训练
来源:https://huggingface.co/papers/2604.15311
摘要
LeapAlign通过降低计算成本并实现通过缩短的轨迹步骤进行稳定的梯度传播,同时保持与人类偏好的一致性,改进了流匹配模型的微调。
本文聚焦于流匹配模型与人类偏好的对齐。一种有前景的方法是通过流匹配的可微生成过程直接反向传播奖励梯度进行微调。然而,通过长轨迹进行反向传播会导致过高的内存成本和梯度爆炸。因此,直接梯度方法难以更新早期生成步骤,而这些步骤对于确定最终图像的整体结构至关重要。为了解决这个问题,我们提出了LeapAlign,这是一种微调方法,它降低了计算成本,并实现了从奖励到早期生成步骤的直接梯度传播。具体来说,我们将长轨迹缩短为仅两步,通过设计两个连续的跳跃,每个跳跃跳过多个ODE采样步骤,并单步预测未来的潜在变量。通过随机化跳跃的起始和结束时间步,LeapAlign在任何生成步骤上都能实现高效且稳定的模型更新。为了更好地利用这些缩短的轨迹,我们为那些与长生成路径更一致的轨迹分配更高的训练权重。为了进一步增强梯度稳定性,我们降低了大范数梯度项的权重,而不是像之前的工作那样完全移除它们。在微调Flux模型时,LeapAlign在各种指标上始终优于最先进的基于GRPO和直接梯度方法,实现了卓越的图像质量和图像-文本对齐。
在你的代理中获取此论文:
hf papers read 2604\.15311
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型的README.md中引用arxiv.org/abs/2604.15311,即可从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集的README.md中引用arxiv.org/abs/2604.15311,即可从此页面链接。
引用此论文的Space0
没有Space链接此论文
在Space的README.md中引用arxiv.org/abs/2604.15311,即可从此页面链接。
包含此论文的收藏1
相似文章
轨迹即师:通过能量导航蒸馏实现少步离散流匹配
本文介绍了轨迹塑造离散流匹配(TS-DFM),该方法以引导式导航取代盲目随机跳跃,显著提升了文本生成效率并降低了计算成本。与传统多步基线相比,该方法在保持推理成本不变的同时,实现了更低的困惑度和更快的速度。
探索Flow Matching中奖励反向传播的设计空间
FlowBP提出了一个统一的代理轨迹框架,通过奖励反向传播将流匹配模型与人类偏好对齐,减少了内存使用和梯度链式传递,同时在多个文本到图像模型上保持了性能。
FlowLM: 基于扩散-流适配的少步语言建模
FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。
Constraint-Aware Flow Matching: 面向约束采样的决策对齐端到端训练
提出了Constraint-Aware Flow Matching,一种新颖的端到端框架,将模型的学习动态与约束采样过程对齐,减轻了投影校正带来的分布偏移,从而实现高质量的约束生成。
@HuggingPapers: Stable-GFlowNet:通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 消除了不稳定的…
Naver AI 推出了 Stable-GFlowNet,这是一种通过对比轨迹平衡来消除生成流网络中不稳定的配分函数估计,从而改善 LLM 红队测试的方法。