探索Flow Matching中奖励反向传播的设计空间

Hugging Face Daily Papers 2026/06/09 16:36 论文

摘要

FlowBP提出了一个统一的代理轨迹框架，通过奖励反向传播将流匹配模型与人类偏好对齐，减少了内存使用和梯度链式传递，同时在多个文本到图像模型上保持了性能。

通过直接奖励反向传播将文本到图像的流匹配模型与人类偏好对齐是样本高效的，但受到两个众所周知的问题的阻碍：在现代模型规模下，无法在整个采样轨迹中存储激活值，并且跨步骤的链式雅可比乘积会随着奖励梯度传播回早期索引而膨胀。基于连接器的方法，如LeapAlign，通过用一条短的固定路径替换完整的反向轨迹来解决这些问题，突出了采样和优化之间的有用解耦。然而，所得梯度的质量取决于这条短路径对完整展开的近似精度，尤其是在长间隔上。我们提出了FlowBP，一个统一的代理轨迹框架，将反向轨迹本身视为设计对象。FlowBP保留了一个无梯度的缓存展开用于采样，然后从缓存和选择性重新前向的速度中构建一个轻量级的反向代理。这种观点分离了四个选择：奖励模型输入、活跃集、积分权重和桥接耦合，并将先前的直接梯度方法恢复为特定设置。在该框架内，我们实例化了三个变体：FlowBP-Sparse使用稀疏欧拉重构，FlowBP-Bridge添加了受控的桥接耦合，FlowBP-Lagrange提高了跳跃求积的阶数。三者都通过活跃集大小限制内存，并将梯度链式传递限制在最多一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上，在偏好、质量和组合指标方面，这三个变体在大多数指标上优于直接梯度基线。

查看原文

查看缓存全文

缓存时间: 2026/06/23 05:41

论文页 - 探索流匹配中奖励反向传播的设计空间

来源：https://huggingface.co/papers/2606.11075 发布于6月9日

提交者https://huggingface.co/cheese1

Ruoyu (https://huggingface.co/cheese1)于6月23日

摘要

FlowBP通过使用一种代理轨迹框架解决了流匹配模型对齐中的局限性，该框架减少了内存使用和梯度链式传播，同时在多个文本到图像模型上保持了性能。

通过直接奖励反向传播 (https://huggingface.co/papers?q=direct%20reward%20backpropagation) 将文本到图像流匹配模型 (https://huggingface.co/papers?q=flow%20matching%20models) 与人类偏好对齐是一种样本高效的方法，但受到两个众所周知的问题的阻碍：在当前的模型规模下，无法沿整个采样轨迹存储激活值，并且跨步骤的链式雅可比乘积 (https://huggingface.co/papers?q=Jacobian%20products) 会使得奖励梯度在传回早期索引时膨胀。基于连接器的方法（如LeapAlign）通过用一条短的固定路径替换完整的后向轨迹 (https://huggingface.co/papers?q=backward%20trajectory) 来处理这些问题，突显了采样与优化之间的有用解耦。然而，所得梯度的质量取决于这条短路径对完整展开的近似程度，尤其是在长间隔下。我们提出了FlowBP，一个统一的代理轨迹框架，它把后向轨迹 (https://huggingface.co/papers?q=backward%20trajectory) 本身作为设计对象。FlowBP保留一个无梯度的缓存展开 (https://huggingface.co/papers?q=cached%20rollout) 用于采样，然后从缓存的和选择性重新前向传播的速度中构建一个轻量级的后向代理。这一观点分离了四个选择：奖励模型输入、活跃集、积分权重 (https://huggingface.co/papers?q=integration%20weights) 和桥接耦合 (https://huggingface.co/papers?q=bridge%20coupling)，并将先前的直接梯度方法恢复为特定的设置。在此框架内，我们实例化了三种变体：FlowBP-Sparse使用稀疏欧拉重构，FlowBP-Bridge添加了受控的桥接耦合 (https://huggingface.co/papers?q=bridge%20coupling)，FlowBP-Lagrange提高了跳跃求积 (https://huggingface.co/papers?q=leap%20quadrature) 的阶数。这三种变体都将内存限制在活跃集大小内，并且将梯度链式传播限制在最多一个雅可比因子。在SD3.5-M、FLUX.1-dev和FLUX.2-Klein-base上，针对偏好、质量和组合指标，这三种变体在大多数指标上都优于直接梯度基线。

查看arXiv页面 (https://arxiv.org/abs/2606.11075)查看PDF (https://arxiv.org/pdf/2606.11075)GitHub6 (https://github.com/RuoyuWang-2077/FlowBP)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11075)

在你的智能体中获取这篇论文：

hf papers read 2606.11075

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型关联此论文

在模型的README.md中引用 arxiv.org/abs/2606.11075 以链接至此页面。

引用此论文的数据集0

没有数据集关联此论文

在数据集的README.md中引用 arxiv.org/abs/2606.11075 以链接至此页面。

引用此论文的Space0

没有Space关联此论文

在Space的README.md中引用 arxiv.org/abs/2606.11075 以链接至此页面。

包含此论文的收藏集0

没有包含此论文的收藏集

将这篇论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以链接至此页面。

探索Flow Matching中奖励反向传播的设计空间

论文页 - 探索流匹配中奖励反向传播的设计空间

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

奖励始终存在于你的数据中：使用判别器引导的强化学习修正流匹配

LeapAlign：通过构建两步轨迹在任意生成步骤后训练流匹配模型

遵循均值：参考引导的流匹配

FlowR2A：学习奖励到动作分布的多模态驾驶规划

用于分布强化学习的路径耦合贝尔曼流

提交意见反馈