面向组合奖励的流模型冲突感知加性引导

arXiv cs.AI 2026/05/22 04:00 论文

摘要

本文识别了组合奖励下引导流模型中的流形外漂移，并提出冲突感知加性引导（CAR），这是一种轻量级方法，可动态解决梯度冲突，从而无需重新训练即可提升生成保真度。

arXiv:2605.20758v1 公告类型：新摘要：推理时引导采样通过将生成过程解释为可控轨迹，无需微调即可引导最先进的扩散模型和流模型。这提供了一种简单灵活的方式，用于注入外部约束（例如成本函数或预训练验证器）以实现受控生成。然而，现有方法在同时组合多个约束时常常失败，导致偏离真实数据流形。在本工作中，我们识别了这种流形外漂移的根本原因，并发现近似误差随梯度错位严重增大。基于这些发现，我们提出了冲突感知加性引导（$g^\text{car}$），一种轻量级且可学习的方法，通过动态检测并解决梯度冲突来主动修正流形外漂移。我们在多个领域验证了$g^\text{car}$，包括合成数据集、图像编辑以及用于规划与控制的生成式决策。结果表明，$g^\text{car}$有效修正了流形外漂移，在生成保真度上超越基线，且计算量轻。代码已开源：https://github.com/yuxuehui/CAR-guidance。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:48

# 冲突感知加性引导：面向组合奖励下流模型的推理时对齐
来源：https://arxiv.org/html/2605.20758

###### 摘要

推理时引导采样通过将生成过程解释为可控轨迹，无需微调即可引导最先进的扩散模型和流模型。这提供了一种简单且灵活的方法来注入外部约束（例如，代价函数或预训练验证器）以实现受控生成。然而，现有方法在同时组合多个约束时常常失败，导致偏离真实数据流形。在本文中，我们识别了这种离流形漂移的根本原因，并发现近似误差随梯度不对齐程度严重放大。基于这些发现，我们提出了冲突感知加性引导（ \( \mathrm{CAR} \) 引导，记为 \( g^{\mathrm{car}} \) ），一种轻量级可学习方法，通过动态检测和解决梯度冲突来主动纠正离流形漂移。我们在多个领域验证了 \( g^{\mathrm{car}} \) ，包括合成数据集、图像编辑以及用于规划和控制的生成式决策制定。结果表明， \( g^{\mathrm{car}} \) 有效纠正了离流形漂移，在生成保真度上超越基线且计算开销小。代码见 github.com/yuxuehui/CAR-guidance (https://arxiv.org/html/2605.20758v1/github.com/yuxuehui/CAR-guidance)。

推理时对齐, 流匹配, 生成模型, 受控生成

## 1 引言

参见图注

图 1: 在推理时，我们的目标是从倾斜目标分布 \( p'_1(x_1) \propto p_1^{\mathrm{base}}(x_1) e^{r(x_1)} \) 中采样。(b-c) 单一奖励将分布重新加权到特定属性（“红色”或“狗”）。(d) 在组合奖励（“红色”和“狗”）下，理想样本位于高奖励区域的交集（ \( \star \) ，参见图注）；然而，现有方法常常遭受离流形漂移（即畸变图像， \( \bullet \) ，参见图注）。

参见图注

图 2: (a) 基础采样轨迹。(b) 引导采样向推理轨迹添加引导，且固定源分布 \( p_0^{\mathrm{base}}(x_0) \) ；这迫使轨迹显著弯曲以满足约束，导致不必要地长且高曲率的路径。(c) 梯度不对齐（ \( \to \) 与 \( \to \) 之间）加剧了局部曲率，产生不正确且不稳定的引导，将轨迹推离流形（ \( \bullet \) ）进入低密度区域（即图4 (https://arxiv.org/html/2605.20758#S5.F4) 中可视化的“能量陷阱”）。(d) 在梯度冲突下， \( g^{\mathrm{car}} \) 通过学习引导（ \( \to \) ）直接指向目标 \( x_1 \) 来纠正不对齐的梯度，恢复笔直且位于流形上的轨迹。

连续时间流模型，如整流流 (liu2023flow)、流匹配 (lipman2023flow; tong2023improving) 和随机插值器 (albergo2023stochastic)，已成为一种简单且高效的生成建模范式。通过大规模数据驱动训练，这些模型获得了强大的生成先验，能够泛化到广泛的应用场景。本文研究如何引导强大的生成先验同时满足多个可能相互竞争的目标，这种设置通常称为**组合奖励问题** (du2024compositional)。该挑战是大规模生成流模型实际部署的核心问题，因为推理时样本需要满足多样且常常异构的运行约束。例如，在生成式决策制定中，生成的轨迹必须尊重异构需求，包括安全约束 (eiras2021twostage)、轨迹平滑性 (urain2023se3) 以及与学习到的世界模型的动态一致性 (du2025dynaguide)。类似地，在文本引导的图像编辑中，常常寻求利用大型视觉-语言模型（如 CLIP (radford2021clip)）根据自然语言提示修改图像 (yu2023freedom)。

推理时对齐方法 (lipman2023flow) 通过将任务需求编码为奖励函数，并在推理时直接引导采样过程（无需重新训练或微调基础生成先验）来解决这些挑战。其中，推理时引导采样（或引导）提供了一种轻量级且灵活的接口，通过直接在生成过程中注入奖励信号，使预训练生成模型适应复杂且异构的约束。该方法已成功应用于强制执行各种运行约束 (lipman2023flow; pokle2024training)。特别是，其计算高效的近似形式甚至可以通过启发式引导项来控制训练中未见过的目标 (feng2025guidance)。然而，这些近似引导方法通常会将样本推入低密度区域，其中预训练向量场校准不良，导致系统性地偏离真实数据分布。这种失败模式通常称为**离流形漂移**，在组合奖励设置中尤为严重（图1 (https://arxiv.org/html/2605.20758#S1.F1)），因为相互竞争的目标会引发冲突梯度，共同将样本推离数据流形。精确引导方法 (feng2025guidance) 虽然可以缓解此问题并实现高保真对齐，但通常计算开销大，且缺乏高效适应不同奖励函数所需的灵活性。

在本文中，我们开发了一个理论分析，建立了引导采样近似误差的上界，将其分解为三项：**耦合偏移**、**梯度不对齐**和**局部近似误差**。我们的分析表明，在组合奖励设置中，**近似误差随梯度不对齐** \( (1 - \cos\phi) \) **和奖励函数数量** \( G \) **急剧增长**，其中 \( \phi \) 表示各引导通道间的平均角度散度（图2 (https://arxiv.org/html/2605.20758#S1.F2)(c)；见第4节 (https://arxiv.org/html/2605.20758#S4)）。受此启发，我们提出了**冲突感知加性引导**（CAR 引导，记为 \( g^{\mathrm{car}} \) ），一种轻量级引导采样策略，通过检测和纠正梯度不对齐来主动缓解离流形漂移。CAR 引导引入了一种冲突感知门控机制，在梯度冲突显著的区域选择性激活可学习修正。我们在广泛领域内对 \( g^{\mathrm{car}} \) 进行了实证评估，包括 2D 合成基准、像素空间图像编辑以及覆盖基于状态的规划和 3D 点云操作的生成式决策制定任务。在所有设置中， \( g^{\mathrm{car}} \) 在具有挑战性的组合奖励设置中始终优于最先进的基线，在保持高样本保真度的同时实现了与实时约束更强的对齐。 \( g^{\mathrm{car}} \) 在图像编辑中身份保持提升了 25.4%，规划成功率提升了 38.75%。在机器人操作任务中（朴素推理时引导特别容易偏离流形并产生分布外轨迹）， \( g^{\mathrm{car}} \) 将违规率降低了 78%，成功率从 9% 提升至 61%，实现了反应式避障。代码、数据和预训练检查点见 github.com/yuxuehui/CAR-guidance (https://arxiv.org/html/2605.20758v1/github.com/yuxuehui/CAR-guidance)。

##### 利益冲突披露。作者声明与本工作无财务利益冲突。

## 2 预备知识

### 2.1 流匹配与条件流匹配

流匹配 (FM) (lipman2023flow) 是一种无需模拟的训练连续归一化流的方法，它学习一个时间相关的向量场 \( v_t(x_t, t) \) 将源分布 \( p_0 \) 传输到目标分布 \( p_1 \)。如果向量场 \( v_t \) 的流 \( \phi_t: [0,1]: \mathbb{R}^d \to \mathbb{R}^d \) 满足连续性方程 \( \partial_t p_t + \nabla \cdot (p_t v_t) = 0 \)，且边界条件分别匹配 \( t=0 \) 和 \( t=1 \) 处的源分布和目标分布，则称 \( v_t \) 生成概率密度路径 \( p_t \)。给定一个目标概率密度路径 \( p_t \) 和相应的目标向量场 \( v_t \)（它生成 \( p_t \)），FM 目标为：
\[
\mathbb{E}_{t \sim \mathcal{U}(0,1), \, x_t \sim p_t} \left[ \| v_\theta(x_t, t) - v_t(x_t, t) \|^2 \right], \tag{1}
\]
其中 \( \theta \) 表示向量场 \( v_\theta \) 的可学习参数。

为了使训练可行，条件流匹配 (CFM) (lipman2023flow) 引入了一个根据耦合测度 \( \pi(z) \) 分布的潜变量 \( z \)，并定义了条件概率路径 \( p_t(x_t | z) \) 以及相应的条件向量场 \( u_t(x_t, t | z) \)。CFM 目标为：
\[
\mathbb{E}_{\substack{t \sim \mathcal{U}(0,1) \\ z \sim \pi(z)}} \mathbb{E}_{x_t \sim p_t(\cdot | z)} \left[ \| v_\theta(x_t, t) - v_t(x_t, t | z) \|^2 \right]. \tag{2}
\]
对于任意选择的潜变量 \( z \) 和耦合测度 \( \pi(z) \)，最小化 (2) 中的条件流匹配损失等价于最小化 (1) 中的边际流匹配目标，并产生最优边际向量场 \( v_t(x_t, t) = \mathbb{E}_{z \sim \pi(z | x_t)} [v_t(x_t, t | z)] \) (tong2024simulation)。在一般公式中，潜变量定义为耦合对 \( z = (x_0, x_1) \)，耦合测度 \( \pi(z) = \pi(x_0, x_1) \) 表示源分布和目标分布之间的联合耦合。

### 2.2 引导采样

在推理时，我们的目标是将生成基础目标分布 \( p_1(x_1) \) 的基础向量场 \( v_t(x_t, t) \) 更改为新的向量场 \( v'_t(x_t, t) \)，该新向量场从重新加权后的目标分布 \( p'_1(x_1) \propto p_1(x_1) e^{r(x_1)} \) 中生成样本。这里， \( r(x_1) = \sum_{j=1}^G r_j(x_1) \) 是由可测奖励函数 \( r_j: \mathbb{R}^d \to \mathbb{R} \) 组合而成的（需最大化）。推理时引导采样通过向基础向量场注入一个加性项 \( g_t(x_t, t) \) 来引导生成过程 (pokle2024training; feng2025guidance)：
\[
v'_t(x_t, t) = v_t(x_t, t) + g_t(x_t, t), \tag{3}
\]
同时仍从固定的源分布 \( p_0 \) 初始化轨迹，如图 2 (https://arxiv.org/html/2605.20758#S1.F2)(b,c) 所示。回想一下，修改后的向量场 \( v'_t(x_t, t) \) 保留了预训练先验；即条件向量场 \( v'_t(x_t, t | z) = v_t(x_t, t | z) \) 和条件概率路径 \( p'_t(x_t | z) = p_t(x_t | z) \) 保持不变。因此，引导采样在形式上等价于对潜耦合路径上的耦合测度 \( \pi(z) \) 进行重新加权。修改后的边际概率路径和向量场为：
\[
p'_t(x_t) = \int p_t(x_t | z) \, \pi'(z) \, dz, \tag{4}
\]
\[
v'_t(x_t, t) = \int v_t(x_t, t | z) \, \pi'(z | x_t) \, dz, \tag{5}
\]
其中 \( \pi'(z) = \frac{1}{\mathcal{Z}} \mathcal{P}(z) \pi(z) e^{r(x_1)} \)。这里， \( \mathcal{P}(z) \triangleq \frac{\pi'(x_0 \mid x_1)}{\pi(x_0 \mid x_1)} \) 是耦合比，它捕捉了耦合测度的偏移：从耦合角度来看，将目标约束为重新加权分布 \( p'_1(x_1) \) 会固有地改变源与目标之间的最优耦合。耦合偏移项 \( \mathcal{P}(z) \) 确保源分布 \( p_0(x_0) \) 在引导操作下保持不变。 \( \mathcal{Z} = \iint \pi(x_0, x_1) e^{r(x_1)} \, dx_0 \, dx_1 \) 是归一化常数， \( r(x_1) \) 是在路径 \( z \) 的终端状态处计算的奖励函数。

根据方程 (3) 和 (5)，feng2025guidance 给出了一个封闭形式的引导项：
\[
g_t(x_t, t) = \int \left( \frac{\mathcal{P}(z) e^{r(x_1)}}{\mathcal{Z}_t(x_t)} - 1 \right) \, v_t(x_t, t | z) \, \pi(z | x_t) \, dz. \tag{6}
\]
其中 \( \mathcal{Z}_t(x_t) = \int \mathcal{P}(z) e^{r(x_1)} \pi(z \mid x_t) \, dz \) 是归一化因子。

现有引导采样方法 (pokle2024training; yu2023freedom; Patel_2025_ICCV) 通常假设 \( \mathcal{P}(z) \approx 1 \) 并通过一阶泰勒展开 \( \hat{x}_1(x_t) \triangleq \mathbb{E}_{z \sim \pi(z \mid x_t)} [x_1] \) 来近似奖励函数。于是，近似引导项为：
\[
g^{\text{approx}}_t(x_t, t) \approx \text{Cov}_{\pi(z \mid x_t)} \big( v_t(\cdot \mid z), x_1 \big) \nabla_{\hat{x}_1} r(\hat{x}_1). \tag{7}
\]
在实践中，该协方差矩阵常进一步简化为一个超参数或时间相关的标量值。

## 3 相关工作

推理时引导采样方法旨在估计加性引导项 \( g_t(x_t, t) \)，可大致分为近似引导和精确引导。

**近似引导**。许多工作使用方程 (7) 中定义的梯度 \( \nabla_{x_t} r(\hat{x}_1) \) 作为引导，并隐式假设耦合比 \( \mathcal{P}(z) \approx 1 \)。例如，在扩散模型中，DPS (chung2023diffusion) 和 LGD (song2023loss) 广泛采用此方法。在流模型中，FlowDPS (pokle2024training) 将此近似应用于 OT-ODE（通过 \( \nabla_{x_t} \log p(y | \hat{x}_1) \) 引导轨迹），而 FlowChef (Patel_2025_ICCV) 在局部线性向量场假设下推导了类似的引导。

面向组合奖励的流模型冲突感知加性引导

相似文章

Flow-Direct: 通过非参数引导场实现高效反馈与可复用的流模型引导

Constraint-Aware Flow Matching: 面向约束采样的决策对齐端到端训练

遵循均值：参考引导的流匹配

面向自回归视频生成的在线策略对抗流蒸馏

我们真的在倾斜吗？流模型与扩散模型中奖励引导的机制

提交意见反馈