探索Flow Matching中奖励反向传播的设计空间
摘要
FlowBP提出了一个统一的代理轨迹框架,通过奖励反向传播将流匹配模型与人类偏好对齐,减少了内存使用和梯度链式传递,同时在多个文本到图像模型上保持了性能。
查看缓存全文
缓存时间: 2026/06/23 05:41
论文页 - 探索流匹配中奖励反向传播的设计空间
来源:https://huggingface.co/papers/2606.11075 发布于6月9日
·
提交者https://huggingface.co/cheese1
Ruoyu (https://huggingface.co/cheese1)于6月23日
摘要
FlowBP通过使用一种代理轨迹框架解决了流匹配模型对齐中的局限性,该框架减少了内存使用和梯度链式传播,同时在多个文本到图像模型上保持了性能。
通过直接奖励反向传播 (https://huggingface.co/papers?q=direct%20reward%20backpropagation) 将文本到图像流匹配模型 (https://huggingface.co/papers?q=flow%20matching%20models) 与人类偏好对齐是一种样本高效的方法,但受到两个众所周知的问题的阻碍:在当前的模型规模下,无法沿整个采样轨迹存储激活值,并且跨步骤的链式雅可比乘积 (https://huggingface.co/papers?q=Jacobian%20products) 会使得奖励梯度在传回早期索引时膨胀。基于连接器的方法(如LeapAlign)通过用一条短的固定路径替换完整的后向轨迹 (https://huggingface.co/papers?q=backward%20trajectory) 来处理这些问题,突显了采样与优化之间的有用解耦。然而,所得梯度的质量取决于这条短路径对完整展开的近似程度,尤其是在长间隔下。我们提出了FlowBP,一个统一的代理轨迹框架,它把后向轨迹 (https://huggingface.co/papers?q=backward%20trajectory) 本身作为设计对象。FlowBP保留一个无梯度的缓存展开 (https://huggingface.co/papers?q=cached%20rollout) 用于采样,然后从缓存的和选择性重新前向传播的速度中构建一个轻量级的后向代理。这一观点分离了四个选择:奖励模型输入、活跃集、积分权重 (https://huggingface.co/papers?q=integration%20weights) 和桥接耦合 (https://huggingface.co/papers?q=bridge%20coupling),并将先前的直接梯度方法恢复为特定的设置。在此框架内,我们实例化了三种变体:FlowBP-Sparse使用稀疏欧拉重构,FlowBP-Bridge添加了受控的桥接耦合 (https://huggingface.co/papers?q=bridge%20coupling),FlowBP-Lagrange提高了跳跃求积 (https://huggingface.co/papers?q=leap%20quadrature) 的阶数。这三种变体都将内存限制在活跃集大小内,并且将梯度链式传播限制在最多一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上,针对偏好、质量和组合指标,这三种变体在大多数指标上都优于直接梯度基线。
查看arXiv页面 (https://arxiv.org/abs/2606.11075)查看PDF (https://arxiv.org/pdf/2606.11075)GitHub6 (https://github.com/RuoyuWang-2077/FlowBP)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11075)
在你的智能体中获取这篇论文:
hf papers read 2606.11075
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型关联此论文
在模型的README.md中引用 arxiv.org/abs/2606.11075 以链接至此页面。
引用此论文的数据集0
没有数据集关联此论文
在数据集的README.md中引用 arxiv.org/abs/2606.11075 以链接至此页面。
引用此论文的Space0
没有Space关联此论文
在Space的README.md中引用 arxiv.org/abs/2606.11075 以链接至此页面。
包含此论文的收藏集0
没有包含此论文的收藏集
将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以链接至此页面。
相似文章
奖励始终存在于你的数据中:使用判别器引导的强化学习修正流匹配
本文提出判别器引导的强化学习(DRL),通过使用预训练表示空间中的判别器作为最优奖励信号,来修正分数匹配和流匹配模型中的对齐问题,无需人类偏好即可显著提升视觉保真度和语义质量。
LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型
LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。
遵循均值:参考引导的流匹配
本文介绍了一种在流匹配中实现可控生成的方法,通过使用参考集调整条件端点均值,提供了无需训练和半参数化的指导方式,用于风格和内容控制。
FlowR2A:学习奖励到动作分布的多模态驾驶规划
FlowR2A提出了一种新颖的方法,通过流匹配解码器将密集奖励监督与动态提议生成相结合,用于多模态驾驶规划,在NAVSIM基准测试上取得了最先进的结果。
用于分布强化学习的路径耦合贝尔曼流
本文介绍了路径耦合贝尔曼流(PCBF),这是一种连续时间的分布强化学习方法,它使用流匹配来建模回报分布,而无需启发式投影。它通过将当前回报流和后续回报流通过共享的基础噪声耦合在一起,解决了以往基于流的方法中存在的边界不匹配和高方差问题。