Implicit Variational Rejection Sampling
摘要
本文提出了隐式变分拒绝采样(Implicit Variational Rejection Sampling, IVRS),该方法将隐式分布与拒绝采样相结合,以改进变分推断中的后验近似,并引入了隐式重采样证据下界(Implicit Resampling Evidence Lower Bound, IR-ELBO)作为更紧的变分下界。
arXiv:2606.14235v1 公告类型: 新
摘要:变分推断(VI)是贝叶斯机器学习中用于近似复杂后验分布的基本推断技术。传统的VI通常依赖于平均场分解,这可能无法充分捕捉真实后验的复杂性。最近的进展利用神经网络来建模隐式分布,提供了更大的灵活性。然而,神经网络架构的实际限制仍然会导致不准确。在本文中,我们提出了一种称为隐式变分拒绝采样(Implicit Variational Rejection Sampling, IVRS)的方法,该方法将隐式分布与拒绝采样相结合,以改进后验近似。我们的方法使用神经网络构建隐式提议分布,并通过一个判别器网络进行拒绝采样,该网络估计隐式提议与真实后验之间的密度比,从而优化近似。为此,我们引入了隐式重采样证据下界(Implicit Resampling Evidence Lower Bound, IR-ELBO)作为衡量重采样分布质量的指标,并推导出更紧的变分下界。实验结果表明,我们的方法优于传统的变分推断技术。
查看缓存全文
缓存时间: 2026/06/15 09:12
# 隐式变分拒绝采样
来源: https://arxiv.org/html/2606.14235
李世贵华南理工大学陈伟华南理工大学李嘉诚华南理工大学林志琪华南理工大学 曾德禄通讯作者\. 邮箱:dlzeng@scut\.edu\.cn华南理工大学丁兴号厦门大学John Paisley哥伦比亚大学赵启斌通讯作者\. 邮箱:qibin\.zhao@riken\.jp日本理化学研究所AIP
###### 摘要
变分推断是贝叶斯机器学习中近似复杂后验分布的基本推断技术。传统的变分推断通常依赖于平均场分解,这无法充分捕捉真实后验的复杂性。最近的进展利用神经网络来建模隐式分布,提供了更大的灵活性。然而,神经网络架构的实际约束仍然会产生不准确性。在本文中,我们提出了一种名为隐式变分拒绝采样(IVRS)的方法,该方法将隐式分布与拒绝采样相结合,以改进后验近似。我们的方法使用神经网络构建隐式提议分布,并通过一个判别器网络进行拒绝采样,该网络估计隐式提议与真实后验之间的密度比,从而细化近似。为此,我们引入了隐式重采样证据下界(IR-ELBO)作为评估重采样分布质量的指标,并推导出一个更紧的变分下界。实验结果表明,我们的方法优于传统的变分推断技术。
## 1引言
变分推断已成为贝叶斯机器学习中近似复杂后验分布的基础技术[jordan1999introduction,hoffman2013stochastic]。传统的变分推断方法通常依赖于平均场假设[blei2017variational],这用后验的表达能力换取了计算的可处理性。为了解决这一局限性,研究人员提出使用通常由神经网络建模的隐式分布,利用其灵活性来近似复杂的后验分布[mescheder2017adversarial,huszar2017variational,titsias2019unbiased,shi2017kernel];这种隐式和基于扩散的构造也已扩展到更丰富的贝叶斯模型,如深度高斯过程[xu2024sparse,xu2026diffusion]。尽管神经网络在理论上具有高度表达能力[hornik1989multilayer,krizhevsky2012imagenet,lecun2015deep],但在实践中,它们仍然难以匹配复杂的真实后验,尤其是在容量有限、初始化不良或优化困难的情况下[arora2017generalization]。因此,使用神经网络的后验近似作为一种现成的方法并不稳健。
为了改进神经网络的后验近似,我们提出了隐式变分拒绝采样(IVRS),该方法利用拒绝采样[gilks1992adaptive]来更好地发挥隐式分布的优势。我们首先使用神经网络构建作为提议的隐式分布。然后我们设计一个与提议分布和真实后验之间的密度比相关的接受概率函数,并应用拒绝采样来生成重采样样本。使用一个判别器网络来近似密度比,从而将提议分布细化为更准确的后验近似。通过整合对抗训练技术,这种方法使我们能够构建一个隐式重采样证据下界(IR-ELBO)。
我们将贡献总结如下:
1. 1)我们引入了隐式变分拒绝采样(IVRS),将隐式分布与拒绝采样相结合,以实现使用神经网络进行更准确的变分推断。
2. 2)通过整合对抗训练技术,我们构建了隐式重采样证据下界(IR-ELBO),并分析了重采样分布,特别是其与真实后验之间减小的KL散度,为提高准确性提供了理论支持。
3. 3)我们通过实验证明,IVRS 在准确性和效率方面可以优于传统的变分推断方法。
## 2模型框架
### 2.1贝叶斯生成模型
考虑一个无监督生成模型,对于数据集D=\{xi\}i=1N,该模型具有潜在变量z和模型参数θ。模型的联合分布形式为
p(x,z|θ)=p(z)p(x|z,θ),(1)
其中p(z)是z的先验分布,p(x|z,θ)是一个参数化的生成模型。在更传统的模型中,例如高斯混合模型(GMM),这种分布通常通过手动设计来指定。随着深度学习的发展,特别是以变分自编码器(VAE)为代表的生成模型,这种分布通常使用神经网络进行参数化。虽然这个框架可以扩展到监督学习场景,但我们在无监督学习框架下开发我们的方法。
### 2.2变分推断
推断的目标是对方程 (1) 中潜在变量的后验分布进行建模。对于非共轭模型,例如涉及深度学习架构的模型,后验分布非常复杂,需要近似方法。变分推断(VI)通过最大化证据下界(ELBO),使用预定义的变分分布 q(z|φ) 对后验分布 p(z|x) 进行 KL 散度近似:
L(x,θ,φ)=Eq(z|φ)[log p(x,z|θ)−log q(z|φ)] 。(2)
传统的平均场近似假设变分分布具有分解形式:
q(z|x,φ)=∏i=1m q(zi|x,φi),(3)
其中 m 表示分解中的因子数量,每个 q(zi|x,φi) 通常是一个简单的参数分布。
平均场近似牺牲了准确性以换取可处理性。为了解决这一局限性,隐式变分推断方法采用神经网络的参数化形式来表示变分分布。这些方法旨在通过利用神经网络的表达能力来捕捉更准确、更复杂的后验结构。它们采用如下形式:
z ∼ qφ(z|x) ⟶ z = fφ(x,ε), ε ∼ p(ε) 。(4)
这里,φ 表示神经网络的参数,而 ε 是独立从一个简单分布(如高斯分布)中抽取的。最近,已经提出了各种算法来有效训练这样的模型,包括对抗变分贝叶斯[mescheder2017adversarial]和半隐式变分推断[yin2018semi]。
尽管神经网络具有灵活性,但传统的神经网络面临实际限制,其结构设计通常依赖于经验启发式方法。拒绝采样[naesseth2017reparameterization,jankowiak2023reparameterized]提供了一种灵活的方法,可以在不需要增加模型容量或改变架构的情况下,实现更稳健的隐式分布学习。因此,我们将拒绝采样视为改进隐式变分推断的补充机制,特别是当变分族缺乏足够支持时。在下一节中,我们将介绍一种结合拒绝采样来解决这些挑战的方法。
## 3提出的方法
### 3.1拒绝采样
拒绝采样是一种标准的统计技术,用于通过提议分布从目标分布中生成样本。给定一个目标分布 ptar(z) 和一个提议分布 qpro(z),拒绝采样以由接受概率函数 a(z) 定义的概率接受样本 z ∼ qpro(z),该函数与目标密度和提议密度的比值成比例:
a(z) = ptar(z) / M qpro(z),(5)
其中 M > 0,并且 M 的选择确保接受概率小于或等于 1。在我们的模型中,目标分布 ptar(z) = pθ(z|x),即模型结构方程 (1) 中潜在变量的真实后验。我们将提议分布定义为方程 (5) 中的隐式分布,qpro(z) = qφ(z|x)。因此,我们将接受率函数写为 a(z;x,θ,φ)。
然而,与传统的拒绝采样不同,在我们的模型中计算接受率函数 a(z;x,θ,φ) 不是解析的。主要挑战有两个:i) 目标分布 pθ(z|x) 是真实后验,通常只能以贝叶斯规则中方程 (1) 的未归一化联合似然形式表示;ii) 提议分布 qφ(z|x) 是一个隐式分布,通常由某种结构生成,使得确定其概率密度函数变得困难。接下来,我们将提出解决这两个问题的方案。
### 3.2接受概率函数
为了解决这两个挑战,我们首先使用贝叶斯规则表示目标分布 pθ(z|x):
pθ(z|x) = pθ(x|z) p(z) / pθ(x),(6)
其中 pθ(x|z) 是似然,p(z) 是先验,pθ(x)=∫ pθ(x|z) p(z) dz 是证据。为了确保接受概率在 [0,1] 范围内,我们可以忽略证据项,前提是选择适当的缩放因子 M,使得
a(z;x,θ,φ) = pθ(x|z) p(z) / M qφ(z|x) ≤ 1 。(7)
为了保证这个约束在实践中成立,接受率函数通常构造为
a(z;x,θ,φ) = min[ pθ(x|z) p(z) / M qφ(z|x), 1 ] 。(8)
然而,min 函数使得变分后验参数的基于梯度的优化变得困难。为了解决这个问题,我们采用 grover2018variational 的完全可微近似:
a(z;x,θ,φ) = pθ(x|z) p(z) / ( pθ(x|z) p(z) + M qφ(z|x) ) ∈ (0,1) (9)
这个近似解决了第一个挑战。
对于第二个挑战,其中提议分布 qφ(z|x) 由神经网络 φ 隐式建模,我们使用对抗训练来估计它。具体来说,我们通过引入一个额外的判别网络 T(x,z) 来解决计算项 log p(z) - log qφ(z|x) 的挑战,该网络区分从真实联合分布 p(x,z) 中采样的对 (x,z) 与使用隐式提议分布 qφ(z|x) 采样的对 (x,z)。这个判别器 T(x,z) 的目标 D(T) 是
D(T) = E_{p(x)} E_{qφ(z|x)}[ log σ(T(x,z)) ] + E_{p(x)} E_{p(z)}[ log(1-σ(T(x,z))) ],(10)
其中 σ(t)=1/(1+e^{-t}) 表示 sigmoid 函数。根据 goodfellow2014generative 和 mescheder2017adversarial,最优判别器 T*(x,z) 为:
T*(x,z) = log qφ(z|x) - log p(z) 。(11)
我们看到 T* 可以直接代入方程 (9) 来计算隐式提议分布:
a(z;x,θ,φ) = pθ(x|z) / ( pθ(x|z) + M exp(T*(x,z)) ) 。(12)
因此,即使在提议分布缺乏显式解析形式的情况下,我们也能有效地执行拒绝采样。有多种方法可用于估计非解析分布的密度比。我们在这里采用对抗训练[goodfellow2014generative,mescheder2017adversarial],尽管其他估计器,例如最近基于扩散和薛定谔桥的密度比估计[chen2025dequantified],同样与我们的框架兼容。此外,方程 (10) 中的期望在最外层,因此蒙特卡洛估计保持无偏,适用于小批量算法。
算法 1 rθ,φ(z|x) 的采样器
输入: aθ,φ(z;θ,φ), qφ(z|x)
输出: z ∼ rθ,φ(z|x)
1: 对方程 (10) 中的 D(Tη) 关于 η 进行梯度上升相似文章
证据深度学习的变分推断
提出了一种数学上严格的框架——变分推断的深度证据学习(VI-EDL),通过变分推断重新表述传统深度证据学习,推导出证据下界,建立泛化界,并在视觉和医学数据集上实现了最先进的性能,以解决传统深度证据学习的局限性。
基于方差缩减的零阶非对数凹采样及其在逆问题中的应用
提出了一种用于非对数凹分布的方差缩减零阶朗之万采样方法,建立了首个非渐近收敛保证,并将其应用于基于分数的生成先验的逆问题中。
面向奖励引导扩散的分层变分策略
提出了面向奖励引导扩散的分层变分策略框架,在降低推理成本的同时实现高质量采样。在超分辨率等任务上展现了优异的质量-速度权衡。
从大型语言模型的序列内部离散中学习不确定性
本文介绍了SIVR(序列内部方差表示),一个有监督框架,通过分析隐层状态中的逐token和逐层方差模式来检测LLM中的幻觉现象,无需依赖严格的架构假设。该方法聚合完整序列方差特征来学习事实错误的时间模式,并在较小训练集上表现出更好的泛化能力。
@SOURADIPCHAKR18:典型的RL算法和同策略蒸馏方法是盲目采样器:它们使用特权信息来评分rollouts……
这项工作提出使用特权信息来主动采样强化学习中的rollouts,改进了典型的盲目采样方法。