观点：抽样时机已到！为贝叶斯深度学习绘制新航线

arXiv cs.LG 2026/05/22 04:00 论文

摘要

本立场论文认为，贝叶斯神经网络中基于采样的推理已在计算效率上与基于优化的方法持平，并即将取代后者，提供更优的不确定性量化和预测性能。

arXiv:2605.21765v1 Announce Type: new 摘要：在实践中，基于采样的推理（SAI）在贝叶斯神经网络（BNN）中的应用仍然有限，部分原因是人们对采样的可行性和效率存在持续的误解。本立场论文认为，SAI已经与基于优化的方法在计算上持平，并且即将取代这些方法，实现BNN中有效且高效的推理。这一发展应该有利于整个社区，推动BNN成为一种遵循原则的范式，实现其长期承诺但尚未兑现的为神经网络提供原则性不确定性量化。SAI甚至还能做得更多——通过模型平均提供更优的预测性能，为大量可能的下游任务奠定基础，并提供对BNN后验景观的关键洞察。为了实现这一变革并释放采样的潜力，克服当前的误解是必要的第一步。下一步是重新调整研究重点，以应对SAI中剩余的挑战。特别是，社区必须聚焦于两个核心问题：充分探索后验分布景观，以及高保真蒸馏后验样本以实现高效的下游推理。通过解决概念和实践障碍，我们可以解锁SAI的全部潜力，并将其确立为贝叶斯深度学习的核心工具。

查看原文

查看缓存全文

缓存时间: 2026/05/22 08:51

# 采样的时代已至！为贝叶斯深度学习绘制新航向
来源：https://arxiv.org/html/2605.21765

###### 摘要

基于采样的推理（SAI）在贝叶斯神经网络（BNN）中的实际应用仍较为有限，部分原因在于对采样可行性和效率的持续误解。本文主张，SAI已在计算效率上与基于优化的方法达到持平状态，并即将在BNN的有效高效推理中超越此类方法。这一进展应当引起整个学界的关注，推动BNN作为一种原则性范式，实现其长期未能兑现的为神经网络提供原理性不确定性量化的承诺。SAI甚至可以做得更多——通过模型平均带来更优的预测性能，为大量可能的下游任务奠定基础，并提供对BNN景观的关键见解。为了实现这一变革并释放采样的潜力，克服当前的误解是必要的第一步。下一步则是重新调整研究工作，以应对SAI中剩余的挑战。特别是，学界必须聚焦于两个核心问题：充分探索后验景观以及高保真度提炼后验样本以实现高效下游推理。通过解决概念性和实践性障碍，我们可以释放SAI的全部潜力，并将其确立为贝叶斯深度学习的核心工具。

机器学习，ICML

## 1 引言与动机

随着基于深度学习的系统在科学和工业中的广泛使用（例如，Eraslan等，2019（https://arxiv.org/html/2605.21765#bib.bib31）；Abramson等，2024（https://arxiv.org/html/2605.21765#bib.bib41）），对这些系统认知不确定性的捕捉需求也在增长（Hüllermeier 和 Waegeman，2021（https://arxiv.org/html/2605.21765#bib.bib299）；Murphy，2023（https://arxiv.org/html/2605.21765#bib.bib21））。贝叶斯深度学习（BDL）通过模型的后验提供了一个捕获这种不确定性的原则性框架，并已导致了针对神经网络的各种近似方法的发展（Papamarkou等，2024（https://arxiv.org/html/2605.21765#bib.bib293））。

当前BDL的研究主要遵循两个方向。一个分支侧重于基于采样的推理（SAI），强调渐近保证，同时避免依赖简化的分布假设，但局限于小规模问题（Cobb 和 Jalaian，2021（https://arxiv.org/html/2605.21765#bib.bib24）；Wiese等，2023（https://arxiv.org/html/2605.21765#bib.bib15））。另一个分支则将后验搜索重新表述为优化问题，优先考虑可扩展性和速度，但牺牲了更为刚性的近似（Blei等，2017（https://arxiv.org/html/2605.21765#bib.bib296）；Daxberger等，2021a（https://arxiv.org/html/2605.21765#bib.bib78）；Shen等，2024（https://arxiv.org/html/2605.21765#bib.bib30））。

然而，SAI的最新进展表明，采样方法在更大规模问题上也有潜力实现计算可行性，并且实验上通常在性能和不确定性估计方面超越近似方法（Deng等，2023（https://arxiv.org/html/2605.21765#bib.bib214）；Paulin等，2025（https://arxiv.org/html/2605.21765#bib.bib321）；Sommer等，2025（https://arxiv.org/html/2605.21765#bib.bib298））。作为这些方法论进展的补充，诸如`blackjax`（Cabezas等，2024（https://arxiv.org/html/2605.21765#bib.bib111））和`posteriors`（Duffield等，2025（https://arxiv.org/html/2605.21765#bib.bib212））等软件框架现提供了更快、更易获取的核心采样算法实现。

鉴于这些发展，我们提出以下立场：基于采样的推理是贝叶斯深度学习的新未来，但我们需要重新思考我们的研究重点和推理工作流程。超越对日益狭窄的算法改进的追求，我们认为，该领域的进展现在取决于协调一致的努力，以构建稳健且可访问的端到端工作流程。这需要：

参照图注 图1：实现实用化基于采样的推理（SAI）的路径概念总览。强大的算法现状已经解决了常见误解的很大一部分，而剩余的障碍则通过额外的算法使能器和工具来导航。这些元素共同实现了实际可行性和广泛采用。（虚线）反馈箭头表示来自实用化SAI的积极势头，进一步加强了方法论和系统层面的进步。

1. 解决当前阻碍基于采样方法更广泛接受和使用的持续误解。
2. 开发更有效的策略来探索神经网络的复杂后验景观，利用并行化和优化见解。
3. 优先考虑样本管理这一探索不足但任务关键的领域，包括跨各种任务的有效存储、蒸馏和重用。

图1（https://arxiv.org/html/2605.21765#S1.F1）提供了现状、算法使能器、工具以及我们提出的SAI转变所能释放的变革潜力的视觉概览。在本文的其余部分，我们将通过（1）澄清关于SAI的常见误解，（2）概述可扩展后验样本生成的关键设计原则和开放挑战，以及（3）研究重点应如何转向开发实用推理的新方法，来阐述这一观点。

## 2 背景

### 2.1 贝叶斯神经网络

在贝叶斯范式中，神经网络参数（权重和偏置，收集在扁平向量\(\theta \in \Theta \subseteq \mathbb{R}^d\)中）被视为随机变量，并被赋予一个明确的先验分布\(p(\theta)\)。观察数据\(\mathcal{D}=\{(\boldsymbol{x}_i, \boldsymbol{y}_i)\}_{i=1}^n \in (\mathcal{X} \times \mathcal{Y})^n\)允许我们通过贝叶斯规则更新先验，得到后验密度

\[
p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta) p(\theta)}{p(\mathcal{D})}.
\]

如果我们能获得后验，我们将能够量化与神经网络参数相关的认知不确定性。对于新观测值和标签\((\boldsymbol{x}^*, \boldsymbol{y}^*) \in \mathcal{X} \times \mathcal{Y}\)的后验预测密度（PPD）由下式给出

\[
p(\boldsymbol{y}^* \mid \boldsymbol{x}^*, \mathcal{D}) = \int_{\Theta} p(\boldsymbol{y}^* \mid \boldsymbol{x}^*, \theta) p(\theta \mid \mathcal{D}) d\theta
\]

并允许量化关于\(\boldsymbol{y}^*\)的预测不确定性。关键挑战在于，在大型BNN中，由于\(\theta\)的高维性，项\(p(\mathcal{D})\)是难以处理的。注意，虽然将预训练模型视为迁移学习或持续学习中的先验是相关的，并允许将知识迁移视为贝叶斯问题，但我们这里关注的是贝叶斯神经网络训练中独特的算法挑战。

#### 近似贝叶斯推理

为了规避精确后验的难以处理性，近似贝叶斯推理（ABI）方法通常将问题转化为一个简单得多的优化问题，其近似通常围绕此后验的（局部）最大后验（MAP）估计量进行（例如，参见Blei等，2017（https://arxiv.org/html/2605.21765#bib.bib296））。由于后验通常没有解析形式，寻找（局部）最大化者需要简化假设。使问题易于处理的常用方法是变分假设，即不是最大化实际后验，而是使用具有更简单结构（例如，分解高斯分布）的代理后验（Ranganath等，2014（https://arxiv.org/html/2605.21765#bib.bib118）），或者假设一个优化的神经网络是MAP估计量，并围绕该点进行局部近似。常见方法包括拉普拉斯近似（Daxberger等，2021a（https://arxiv.org/html/2605.21765#bib.bib78））、子空间推理（Izmailov等，2020（https://arxiv.org/html/2605.21765#bib.bib122）；Dold等，2025（https://arxiv.org/html/2605.21765#bib.bib322））和随机权重平均（Izmailov等，2018（https://arxiv.org/html/2605.21765#bib.bib121））。在实践中，由独立初始化和优化的网络组成的集成，称为深度集成（DE，Lakshminarayanan等，2017（https://arxiv.org/html/2605.21765#bib.bib141）），构成了近似预测不确定性的强大而稳健的基线，尽管仅在特殊情况下才是后验的有效近似（Wild等，2024（https://arxiv.org/html/2605.21765#bib.bib317）；Rügamer，2026（https://arxiv.org/html/2605.21765#bib.bib11））。其贝叶斯扩展将在本文中讨论。

### 2.2 基于采样的推理

利用可微的先验和似然，我们还可以使用未归一化的后验\(p(\mathcal{D} \mid \theta) p(\theta)\)来构建马尔可夫链，其平稳分布是所需的后验密度，这建立在马尔可夫链蒙特卡洛（MCMC）方法的丰富文献之上（Gelman等，2013（https://arxiv.org/html/2605.21765#bib.bib117））。因此，SAI中的近似后验由有限集合\(S\)个获得的后验样本\(\{\theta^{(s)}, s \in \{1,\dots,S\}\}\)来表征，即在BNN情况下的一组神经网络权重。当这个集合具有代表性且足够大时，它可以实现更灵活、更忠实于真实后验的近似，并通过蒙特卡洛估计来估计后验的性质。对于PPD，我们得到

\[
p(\boldsymbol{y}^* \mid \boldsymbol{x}^*, \mathcal{D}) \approx \frac{1}{S} \sum_{s=1}^{S} p(\boldsymbol{y}^* \mid \boldsymbol{x}^*, \theta^{(s)}),
\]

这通过组合\(S\)个模型参数化构成了一种简单的贝叶斯模型平均（BMA）形式。

历史上，BNN后验的复杂性给SAI带来了重大障碍。常见的采样算法常常难以产生有意义的样本，经常陷入低概率区域。更复杂的采样器，如汉密尔顿蒙特卡洛（HMC，Neal，2011（https://arxiv.org/html/2605.21765#bib.bib251）；Duane等，1987（https://arxiv.org/html/2605.21765#bib.bib164））或无U型转向采样器（NUTS；Hoffman 和 Gelman，2014（https://arxiv.org/html/2605.21765#bib.bib252）），取得了一些成功，但在高维度和困难的算法配置下表现出非常缓慢、低效的性能。此外，许多采样器要求全批次训练，进一步阻碍了它们在大数据集上的使用。

## 3 持续的误解与最新进展

核心采样方法论和高效实现方面的最新进展已经大大缓解了许多先前存在的障碍。这一进展使SAI在时间复杂度和可扩展性方面可与基于优化的近似推理方法相媲美，同时明显展现出更优的性能（例如，参见图2（https://arxiv.org/html/2605.21765#S3.F2））。尽管取得了这些显著进步，关于SAI的持续误解并不仅限于对计算效率低下的刻板印象。许多这些残留的信念源于将经典MCMC的技术天真地迁移到BNN的独特语境中。以下讨论将解决学界中最相关的误解，特别是那些关于时间复杂度、可扩展性、先验选择、（未）调整采样以及“冷后验效应”等影响的误解。

参照图注 图2：在`airfoil` UCI回归任务中，不同贝叶斯推理技术之间运行时间（秒，使用10个CPU核心）和对数逐点预测密度（LPPD；越高越好）的示例比较。方法包括均值场变分推理（MFVI）、拉普拉斯近似以及具有10个和35个成员的深度集成（DE）。SAI由贝叶斯深度集成（BDE，Sommer等，2024（https://arxiv.org/html/2605.21765#bib.bib9））表示，具有1个和10个马尔可夫链，每个链1000个样本。误差条表示3个随机种子上的标准误差。架构是一个具有三个隐藏层、每层16个神经元的MLP。BDE始终获得比竞争方法更高的LPPD，即使当后者被授予相同或更大的计算预算时也是如此。为了匹配一个链的性能，需要35个DE成员，然而，尽管并行化，这些成员具有更长的运行时间。

#### 时间复杂度

一个普遍的看法是SAI非常慢，使其实际上不可行。然而，最近贝叶斯和非贝叶斯深度学习方法的比较（例如，参见Sommer等，2025（https://arxiv.org/html/2605.21765#bib.bib298），2026a（https://arxiv.org/html/2605.21765#bib.bib10）；Arvanitis等，2026（https://arxiv.org/html/2605.21765#bib.bib170）；Paulin等，2025（https://arxiv.org/html/2605.21765#bib.bib321）；Deng等，2023（https://arxiv.org/html/2605.21765#bib.bib214））表明，一旦为每个链确定了良好的起始值，采样的时间与初始优化步骤大致相同。与使用较不先进的方法和软件时的运行时间相比（采样成本可能高出10倍或100倍），这清楚地表明了基于采样的研究的一个转折点。鉴于采样具有与优化相当的成本，大多数从业者很可能愿意并且能够花费这些额外的时间。特别是当采样提供了明显更好的性能，即使竞争方法被授予相同或更多的计算预算时，这一点尤为成立，如图2所示。

#### 可扩展性

学界的另一个看法是采样技术无法扩展到高维问题。然而，许多采样器已被证明在高维BNN中是有效的（Welling 和 Teh，2011（https://arxiv.org/html/2605.21765#bib.bib39）；Chen等，2014（https://arxiv.org/html/2605.21765#bib.bib316）；Springenberg等，2016（https://arxiv.org/html/2605.21765#bib.bib3）；Zhang等，2020（https://arxiv.org/html/2605.21765#bib.bib249）；Paulin等，2025（https://arxiv.org/html/2605.21765#bib.bib321）；Sommer等，2026a（https://arxiv.org/html/2605.21765#bib.bib10））。尽管当前SAI的用例通常只涉及数百万个参数，但我们认为将其扩展到更大的模型是可行的。关键不仅在于算法进步，还在于它们与有效探索技术（第4节）和管理生成样本的策略（第5节）的协同组合。

#### 先验选择

另一个例子是标准各向同性高斯先验。虽然通常被视为一个无意义且过于简单的默认选择，但最近的研究表明，在过参数化机制中，它可能具有理想的

观点：抽样时机已到！为贝叶斯深度学习绘制新航线

相似文章

贝叶斯与频率学派模拟驱动推理的机器学习入门

Neural Bayesian Sequential Routing

使用数据并行吉布斯采样的非参数贝叶斯逆强化学习

基于解析预测推断的高效贝叶斯深度集成

基于贝叶斯滤波的噪声测量下拉格朗日动力学学习方法

提交意见反馈