我们真的在倾斜吗?流模型与扩散模型中奖励引导的机制
摘要
本文解释了奖励引导的流模型和扩散模型中奖励作弊的根本原因,将其归因于Doob h函数的有限粒子插件估计,并提出了一种奖励阻尼调度方案,在不增加计算成本的情况下校正模态内偏差。
arXiv:2606.02884v1 公告类型:新
摘要:奖励引导算法在推理时引导学习生成过程朝向奖励倾斜的度量。虽然经验上强大,但这些方法容易产生奖励作弊:引导模型过度优化奖励,损害了对学习分布的保真度。先前的研究将此归因于神经奖励函数的复杂性或扩散训练中的隐式偏差,但其根本起源仍不清楚。我们表明,奖励作弊源于大多数实际奖励引导扩散实现中的一个近似——Doob h函数的有限粒子插件估计——即使在最简单的高斯和高斯混合目标及二次奖励的非平凡设置中也是如此。通过闭式解,我们分离了插件估计器的两种不同故障模式:它导致每个模态内的奖励作弊,并且无法选择高奖励模态。我们提出了一种闭式奖励阻尼调度方案,无需额外计算即可校正模态内偏差,并阐明了best-of-n采样在补偿模态选择失败中的作用。在高斯混合目标、二维棋盘格和FLUX.1文本到图像生成上的实验证实,我们的理论洞察可以推广到实际设置。
查看缓存全文
缓存时间: 2026/06/03 09:40
# 我们真的在倾斜吗?流模型和扩散模型中奖励引导的机制 来源:https://arxiv.org/html/2606.02884
###### 摘要
奖励引导算法在推理阶段将学习到的生成过程导向奖励倾斜测度。虽然这些方法在实证上很强大,但容易产生*奖励黑客*:引导模型以牺牲对学习分布的保真度为代价过度优化奖励。先前的工作将其归因于神经奖励函数的复杂性或扩散训练中的隐式偏差,但其根本起源仍不清楚。我们证明,奖励黑客源于大多数实际奖励引导扩散实现中做出的近似——有限粒子插件估计Doob hh函数——即使在最简单的高斯和高斯混合目标配合二次奖励的非平凡设置中也是如此。在封闭形式中,我们分离出插件估计的两种不同失效模式:它导致*每个模式内的奖励黑客*,并且*无法选择高奖励模式*。我们提出了一种封闭形式的奖励阻尼调度,无需额外计算即可纠正模式内偏差,并阐明最佳-of-nn采样在补偿模式选择失败中的作用。在高斯混合目标、2D棋盘和FLUX.1文生图上的实验证实,我们的理论洞察可以推广到实际设置。
参见图注
图 1:奖励阻尼。我们引入了*奖励阻尼*,一种简单且有原则的引导调度,用于缓解奖励黑客。基础 FLUX.1[1 (https://arxiv.org/html/2606.02884#bib.bib1)] 样本使用 ImageReward[2 (https://arxiv.org/html/2606.02884#bib.bib2)] 引导;进一步实验细节见第 D.4 节 (https://arxiv.org/html/2606.02884#A4.SS4)。
## 引言
基于流和扩散的生成模型已成为跨不同领域高质量样本生成的主导范式,为文本到图像合成[3 (https://arxiv.org/html/2606.02884#bib.bib3),4 (https://arxiv.org/html/2606.02884#bib.bib4),5 (https://arxiv.org/html/2606.02884#bib.bib5),1 (https://arxiv.org/html/2606.02884#bib.bib1)]、分子设计[6 (https://arxiv.org/html/2606.02884#bib.bib6),7 (https://arxiv.org/html/2606.02884#bib.bib7),8 (https://arxiv.org/html/2606.02884#bib.bib8),9 (https://arxiv.org/html/2606.02884#bib.bib9)]和蛋白质结构预测[10 (https://arxiv.org/html/2606.02884#bib.bib10),11 (https://arxiv.org/html/2606.02884#bib.bib11),12 (https://arxiv.org/html/2606.02884#bib.bib12),13 (https://arxiv.org/html/2606.02884#bib.bib13)]的最先进系统提供动力。然而,在许多应用中,从学习到的分布 ρ₁(x)\rho_{1}(x) 中采样并非最终目标——我们通常希望从奖励倾斜测度ρ̃₁(x) ∝ ρ₁(x) e^{λ r(x)}\tilde{\rho}_{1}(x) \propto \rho_{1}(x) e^{\lambda r(x)} 中采样,其中 r 是奖励函数,λ 是逆温度。例如,从业者可能希望获得与文本提示更匹配的图像[2 (https://arxiv.org/html/2606.02884#bib.bib2),14 (https://arxiv.org/html/2606.02884#bib.bib14),15 (https://arxiv.org/html/2606.02884#bib.bib15),16 (https://arxiv.org/html/2606.02884#bib.bib16),17 (https://arxiv.org/html/2606.02884#bib.bib17)]、对目标蛋白质口袋具有更高结合亲和力的分子[18 (https://arxiv.org/html/2606.02884#bib.bib18),19 (https://arxiv.org/html/2606.02884#bib.bib19),20 (https://arxiv.org/html/2606.02884#bib.bib20)],或具有更好稳定性的蛋白质[10 (https://arxiv.org/html/2606.02884#bib.bib10),21 (https://arxiv.org/html/2606.02884#bib.bib21),12 (https://arxiv.org/html/2606.02884#bib.bib12)]。这就是*奖励引导生成*的问题。广泛使用的方法,如分类器引导[22 (https://arxiv.org/html/2606.02884#bib.bib22)]和无分类器引导[23 (https://arxiv.org/html/2606.02884#bib.bib23)],可以理解为特定奖励函数选择的奖励引导实例,并且更通用的价值函数方法已在 Uehara 等人[24 (https://arxiv.org/html/2606.02884#bib.bib24),25 (https://arxiv.org/html/2606.02884#bib.bib25)]中开发。尽管在实证中广泛使用,这些方法通常容易产生*奖励黑客*:随着引导规模的增加,生成的样本以牺牲对学习分布的保真度为代价过度优化奖励,产生不真实或退化的输出[26 (https://arxiv.org/html/2606.02884#bib.bib26)]。虽然先前的实验工作将奖励黑客归因于神经奖励函数的复杂性[26 (https://arxiv.org/html/2606.02884#bib.bib26),27 (https://arxiv.org/html/2606.02884#bib.bib27),28 (https://arxiv.org/html/2606.02884#bib.bib28)]或生成模型训练中的隐式偏差[29 (https://arxiv.org/html/2606.02884#bib.bib29)],但奖励黑客的根本起源仍不明确。类似地,已有实证观察到,从 n 个引导样本中选取最高奖励选项(*最佳-of-n*)在许多设置中显著提升了引导在生成模型中的性能,但最佳-of-n 改进背后的精确机制尚不清楚。这激发了我们在本工作中研究的主要问题:*为什么引导无法对奖励倾斜进行采样,以及我们如何缓解这种偏差?*
\\lxSVG@picture 基础目标 分析奖励倾斜 实际引导 阻尼 + 最佳-of-n 来自多个模式的混合样本 选择正确模式并优化奖励 过度集中并 超调均值 恢复与 分析倾斜相似的行为
\\lxSVG@picture\\endlxSVG@picture 基础目标\\lxSVG@picture\\endlxSVG@picture 基础样本\\lxSVG@picture\\endlxSVG@picture 倾斜样本\\lxSVG@picture\\endlxSVG@picture 引导样本\\lxSVG@picture\\endlxSVG@picture 我们的提议\\lxSVG@picture\\endlxSVG@picture 奖励最大化器\\endlxSVG@picture
图 2:概述。与分析奖励倾斜相比,实际引导算法在每个模式内过度集中,并且无法选择高奖励模式。我们提出了一种阻尼奖励尺度以缓解模式内奖励黑客,并阐明了最佳-of-n 在模式选择中的作用;结合这两种方法通常使我们能够近似恢复奖励倾斜。
总的来说,我们的主要贡献(在图 2 (https://arxiv.org/html/2606.02884#S1.F2) 中直观总结)是:
1. 我们证明在高斯设置中,显著的*模式内奖励黑客*源于大多数奖励引导扩散实现中的*有限粒子插件估计*。
2. 我们表明,在高斯混合设置中,使用插件估计的引导无法在模式之间进行选择,并且没有机制来精确加权远处的高奖励模式。
3. 我们提出了一种简单的封闭形式阻尼奖励调度 λt 以缓解模式内奖励黑客,并阐明最佳-of-n 采样在执行模式选择中的作用。
4. 我们通过一系列不同的实验(高斯混合目标、2D 棋盘和 FLUX.1 文本到图像生成)展示了我们阻尼奖励调度的有效性,并展示了最佳-of-n 采样的作用。
## 奖励引导的背景
我们首先通过随机插值和 Doob hh-变换回顾生成模型中奖励引导的一般理论框架。
### 随机插值和流匹配
我们假设可以访问预训练的流模型 b: [0,1] × ℝᵈ → ℝᵈ,并且通过从噪声 x₀ ∼ N(0, I_d) 开始,数值积分概率流 ODE ẋ_t = b_t(x_t) 直到 t=1,从数据分布 ρ₁ ∈ P(ℝᵈ) 中抽取样本。这样的模型 b_t 可以通过最小化流匹配目标[30 (https://arxiv.org/html/2606.02884#bib.bib30),31 (https://arxiv.org/html/2606.02884#bib.bib31)]获得。为了便于分析,我们考虑情况 b_t := E[İ_t | I_t = x],其中 I_t := (1−t)I₀ + tI₁ (1) 是对于独立 I₀ ∼ N(0, I_d) 和 I₁ ∼ ρ₁ 的*线性插值*。此外,如果 σ_t ∈ ℝ^{d×ℓ} 是任何固定的噪声调度,并且 ρ_t 表示 x_t 的密度,则 SDE dX_t = (b_t(X_t) + ½(σ_t σ_t^⊤) ∇ log ρ_t(X_t)) dt + σ_t dB_t (2) 的解也与 x_t 共享相同的时边际分布(第 A.1 节 (https://arxiv.org/html/2606.02884#A1.SS1))。
### 奖励引导和插件估计
奖励引导生成的问题通常被表述为在推理时(无需额外微调)引导训练好的生成模型,以获得来自*奖励倾斜测度*的样本
ρ̃₁(x) ∝ ρ₁(x) e^{λ r(x)} (3)
对于奖励函数 r: ℝᵈ → ℝ 和逆温度 λ > 0。奖励倾斜测度 (3) 在强化学习中通常作为 KL 正则化变分优化问题(第 A.2 节 (https://arxiv.org/html/2606.02884#A1.SS2))的解出现。
##### Doob hh-变换
Doob hh-变换(例如,[32 (https://arxiv.org/html/2606.02884#bib.bib32)])提供了一种有原则的框架来解决奖励引导问题,通过修改未引导 SDE (2) 的漂移项,将终端分布导向奖励倾斜测度 (3)。定义*Doob hh-函数* h_t(x) ≔ E[e^{λ r(X₁)} | X_t = x],*Doob hh-变换*遵循引导 ODE
~ẋ_t = b_t(~x_t) + ½(σ_t σ_t^⊤) ∇ log h_t(~x_t) (4)
从 ~x₀ = x₀ 开始,只要 *X₀ ⟂⟂ X₁*,就产生来自奖励倾斜的样本 ~x₁ ∼ ρ̃₁。为了满足这个约束并确保 Doob hh-变换的有效性,Domingo-Enrich 等人[33 (https://arxiv.org/html/2606.02884#bib.bib33)]证明选择*无记忆噪声调度* σ_t = √{2(1−t)/t} I_d 确保 X₀ ⟂⟂ X₁。
##### 插件估计
定理 12 (https://arxiv.org/html/2606.02884#Thmtheorem12) 中的 Doob hh-函数 h_t(x) = E[e^{λ r(X₁)} | X_t = x] 通常是难解的,因此实践者通常用*k-粒子插件估计*来近似它
ĥ^{(k)}_t(x) = 1/k Σ_{i=1}^k e^{λ r(X₁^{(i)})}, (5)
其中 X₁^{(1)}, ..., X₁^{(k)} ∼ p_{1|t}(· | x) 是独立样本(p_{1|t} 表示 (X₁ | X_t = x) 的分布)。在实践中,由于计算限制,k 通常选择较小[34 (https://arxiv.org/html/2606.02884#bib.bib34),35 (https://arxiv.org/html/2606.02884#bib.bib35),36 (https://arxiv.org/html/2606.02884#bib.bib36)],引入了有限样本偏差。
## 相关工作
在本节中,我们简要回顾关于生成模型奖励引导的相关工作。
##### 奖励引导的应用
奖励引导已成为将生成模型与下游目标对齐的核心要素,跨越多个领域。在文本到图像生成中,学习到的人类偏好奖励模型,如 ImageReward[2 (https://arxiv.org/html/2606.02884#bib.bib2)]、PickScore[14 (https://arxiv.org/html/2606.02884#bib.bib14)] 和 HPSv2[37 (https://arxiv.org/html/2606.02884#bib.bib37)],被常规用于微调和引导最先进的扩散和流匹配模型。在基于结构的药物设计中,奖励引导用于将扩散生成的配体偏向目标口袋和更高的预测结合亲和力[18 (https://arxiv.org/html/2606.02884#bib.bib18),19 (https://arxiv.org/html/2606.02884#bib.bib19),20 (https://arxiv.org/html/2606.02884#bib.bib20)]。在蛋白质设计中,分类器引导和微调的扩散模型用于生成针对稳定性、结合和其他功能特性优化的序列和结构[10 (https://arxiv.org/html/2606.02884#bib.bib10),21 (https://arxiv.org/html/2606.02884#bib.bib21),12 (https://arxiv.org/html/2606.02884#bib.bib12),24 (https://arxiv.org/html/2606.02884#bib.bib24)]。
##### 奖励引导的实践方法
*随机插值*框架[31 (https://arxiv.org/html/2606.02884#bib.bib31),38 (https://arxiv.org/html/2606.02884#bib.bib38)]为扩散和流匹配生成模型提供了灵活的表述,并支撑了许多现代奖励对齐算法。在这个框架内,*GLASS 流*[34 (https://arxiv.org/html/2606.02884#bib.bib34)]通过用 k-粒子插件估计近似难解的价值函数 h_t(x) = E[e^{λ r(X₁)} | X_t = x] 来实现 Doob hh-变换,其中每个粒子通过模拟从新高斯噪声开始的内部 ODE 获得。这种内部 ODE 模拟很昂贵,促使了*随机流图*框架的开发,该框架在单步中采样后验 (X₁ | X_t)[35 (https://arxiv.org/html/2606.02884#bib.bib35),36 (https://arxiv.org/html/2606.02884#bib.bib36)]。另一种确定性方法是*流图奖励引导*[39 (https://arxiv.org/html/2606.02884#bib.bib39)],它通过从 X_t 到 X₁ 的未引导概率流 ODE 反向传播奖励梯度。另一条互补的工作线[24 (https://arxiv.org/html/2606.02884#bib.bib24),25 (https://arxiv.org/html/2606.02884#bib.bib25),33 (https://arxiv.org/html/2606.02884#bib.bib33)]将奖励引导生成视为强化学习或随机最优控制问题,并通过策略梯度或价值函数学习来微调生成模型;我们在第 A.3 节 (https://arxiv.org/html/2606.02884#A1.SS3) 中讨论与随机最优控制的联系。
##### 引导的理论结果
最近的一些工作在简化设置中研究了引导。Chidambaram 等人[40 (https://arxiv.org/html/2606.02884#bib.bib40)]分析了高斯混合的无分类器引导,表明它可以放大信噪比但扭曲模式权重。Wu 等人[41 (https://arxiv.org/html/2606.02884#bib.bib41)]在分类器引导下提供了理论洞察,而 Pavasovic 等人[42 (https://arxiv.org/html/2606.02884#bib.bib42)]和 Ventura 等人[43 (https://arxiv.org/html/2606.02884#bib.bib43)]从高维角度研究了无分类器引导。Wang 等人[44 (https://arxiv.org/html/2606.02884#bib.bib44)]发现在实践中单调调度对无分类器引导表现良好,我们在第 4.1.2 节 (https://arxiv.org/html/2606.02884#S4.SS1.SSS2) 中的奖励阻尼调度是一个原则性解。相似文章
恢复扩散策略中的隐藏奖励
本论文探讨了在基于扩散的策略中恢复隐藏奖励的方法,旨在提高此类模型的对齐程度或效率。
大模型时代的奖励黑客:机制、涌现错位与挑战
综述提出“代理压缩假设”,解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。
分布过程奖励模型:通过条件最优传输校准未来奖励的预测
本文引入了分布过程奖励模型,利用条件最优传输对 PRM 进行校准,以提高推理时缩放(inference-time scaling)中成功概率估计的准确性。该研究在 MATH-500 和 AIME 等数学推理基准测试中展示了改进的校准效果和下游性能。
Flow-Direct: 通过非参数引导场实现高效反馈与可复用的流模型引导
Flow-Direct 提出了一种用于基于流的生成模型的非参数引导场,该引导场持续累积奖励反馈,提高了反馈效率,并使得收集的样本可重复用于引导多目标生成,无需额外的奖励评估。
使用梯度指纹检测和抑制奖励黑客攻击
本文介绍了梯度指纹(Grift)方法,用于在具有可验证奖励的强化学习中检测奖励黑客攻击。该方法通过分析模型内部梯度计算而非表面推理迹象来工作。在数学、代码和逻辑推理基准上,隐式奖励黑客攻击的检测相对改进超过25%。