贝叶斯神经网络的等变性和数据增强

arXiv cs.LG 2026/06/26 04:00 论文

摘要

本文研究了使用变分推断训练的贝叶斯神经网络的数据增强方法，推导了精确等变性的条件，并引入了新颖的对称化技术（如轨道扩展）以提升对称性和性能。

arXiv:2606.26273v1 Announce Type: new 摘要：对称性在许多深度学习任务中都很重要，从科学应用到医学影像。然而，关于是否应将对称性约束强加于神经网络架构（从而得到等变神经网络）还是通过增强训练数据来学习对称性，一直存在争论。尽管等变网络在理论上得到了充分研究，但关于数据增强的了解却少得多，因为分析增强需要对训练动态进行控制。受近期结果表明增强的无限深度集成具有精确等变性的启发，我们研究了使用变分推断训练的贝叶斯神经网络（BNN）的数据增强方法。我们专注于指数族中的变分分布，并推导了实现精确等变的条件。此外，我们获得了等变误差的界限，并引入了三种新颖的对称化技术，以增强数据增强在此设置下的效果。我们进行了大量数值实验，结果表明我们的对称化方法之一（轨道扩展）在等变性和整体性能上均优于基线。我们的代码可在 github.com/dmw1998/augment-BNNs 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:17

# 贝叶斯神经网络的等变性与数据增强
来源：https://arxiv.org/html/2606.26273
\\DeclareSourcemap\\maps

\[datatype=bibtex\]\\map\\step\[fieldset=primaryclass, null\]

Miaowen Dong¹¹¹数学科学系，查尔姆斯理工大学与哥德堡大学，SE-412 96 哥德堡，瑞典。邮箱：[email protected], [email protected] Flinth³³³同等贡献²²²数学与数理统计系，于默奥大学，Linnéus väg 49, 901 87 于默奥，瑞典。邮箱：[email protected] E. Gerken³³³同等贡献¹¹¹数学科学系，查尔姆斯理工大学与哥德堡大学，SE-412 96 哥德堡，瑞典。邮箱：[email protected], [email protected]

###### 摘要

对称性对于许多深度学习任务至关重要，从科学应用到医学成像。然而，关于是将对称性约束强加于神经网络架构（从而得到等变神经网络）还是从增强训练数据中学习对称性，一直存在争议。尽管等变网络在理论上得到了充分研究，但对数据增强的了解却少得多，因为分析增强需要控制训练动态。受最近关于增强的无限深度集成恰好是等变的结果的启发，我们研究了使用变分推断训练的贝叶斯神经网络（BNN）的数据增强。我们专注于指数族中的变分分布，并推导出达到精确等变的条件。此外，我们得到了等变误差的界限，并引入了三种新颖的对称化技术，以增强数据增强在此设置中的效果。我们进行了广泛的数值实验，结果表明我们的对称化方法之一（轨道扩展）在等变性和整体性能方面均优于基线。我们的代码可在github.com/dmw1998/augment-BNNs (https://github.com/dmw1998/augment-BNNs) 获取。

## 1 引言

近年来，对称学习任务已成为一个重要研究领域。在最初专注于逐层施加对称性约束的专用等变网络 [5 (https://arxiv.org/html/2606.26273#bib.bib23)] 之后，注意力最近已转向从增强训练数据中学习对称性 [6 (https://arxiv.org/html/2606.26273#bib.bib22)]。这种方法的优点是，给定一个高效的对称性变换机制，它易于实现，并且可以与高度优化且性能良好的架构一起使用 [34 (https://arxiv.org/html/2606.26273#bib.bib41)]。然而，由于对称性仅仅是学习而来而非强加的，因此只能近似实现。因此，需要新的技术来改善从增强训练中获得的对称性增益。

HGH\_\{G\}η\\eta第3.4节 (https://arxiv.org/html/2606.26273#S3.SS4)定理3.7 (https://arxiv.org/html/2606.26273#S3.Thmtheorem7)参见标题参见标题参见标题×\\times图1：指数族变分分布中位于 HGH\_\{G\} 的自然参数 η\\eta 对应于对称 BNN，此处以反射对称性为例。我们的主要定理 3.7 (https://arxiv.org/html/2606.26273#S3.Thmtheorem7) 表明 HGH\_\{G\} 对于增强训练是不变的。通过第 3.4 节 (https://arxiv.org/html/2606.26273#S3.SS4) 中描述的对称化策略，我们可以增加最终模型的等变性。

显式的逐层等变神经网络易于进行理论分析，而数据增强则更难研究，因为它涉及训练动态（参见相关工作部分）。然而，可以证明在*初始化期望*中，数据增强会导致精确等变性 [16 (https://arxiv.org/html/2606.26273#bib.bib35),28 (https://arxiv.org/html/2606.26273#bib.bib37)]。一种实用但昂贵的近似此类期望值的方法是训练深度集成。

本研究旨在探讨一种更便宜的方法来实现这种“期望等变性”：在增强数据上使用变分推断训练贝叶斯神经网络（BNN）。在此设置中，从后验预测分布中采样取代了对集成的推断步骤，并提供了贝叶斯不确定性估计。与深度集成中每个集成成员需要一次训练运行不同，此设置中只需一次训练运行即可获得变分后验。此外，由于 BNN 具有稳定的分布外行为，它们特别适用于小数据集，而数据增强在这种数据集上预期效果最大。

我们的主要贡献如下：

- • 我们研究了在增强数据上训练的 BNN，其变分分布来自指数族。我们证明，当训练从一个不变先验开始时，在温和假设下，变分分布在训练过程中保持不变。这推广了 [29 (https://arxiv.org/html/2606.26273#bib.bib18)] 中关于非贝叶斯网络训练的类似结果。
- • 我们推导了如果先验不是等变的，变分分布偏离等变性的界限。此外，我们还证明了由于有限采样导致的预测中等变误差的界限。这些理论结果通过数值实验得到了验证。
- • 我们引入了三种对称化方法（几何平均、投影和轨道扩展），可在训练期间应用以改善 BNN 的等变性。我们在图像分类的广泛数值实验中测试了这些技术。*轨道扩展*在模型性能和等变性方面均优于基线。

## 2 相关工作

#### 等变神经网络。

深度神经网络的对称性问题，即*不变性*和*等变性*，已发展成为一个被称为*几何深度学习*的完整子领域 [5 (https://arxiv.org/html/2606.26273#bib.bib23)]。最突出的等变网络结构是逐层结构。这种策略起源于 GCNN，即群卷积神经网络 [8 (https://arxiv.org/html/2606.26273#bib.bib14)]，但现在已经推广到几乎任何由任何群诱导的对称性 [21 (https://arxiv.org/html/2606.26273#bib.bib25),19 (https://arxiv.org/html/2606.26273#bib.bib45),15 (https://arxiv.org/html/2606.26273#bib.bib2)]。还有其他策略，例如从不变量学习 [32 (https://arxiv.org/html/2606.26273#bib.bib40)]、框架平均 [30 (https://arxiv.org/html/2606.26273#bib.bib44)]、基本域投影 [1 (https://arxiv.org/html/2606.26273#bib.bib24)] 和群平均。也有一些工作近似地强制执行对称性，例如通过所谓的权重退火 [33 (https://arxiv.org/html/2606.26273#bib.bib46)]。

#### 数据增强与训练动态。

数据增强对神经网络训练动态的影响问题已在几个简化背景下得到处理，例如特征平均模型 [23 (https://arxiv.org/html/2606.26273#bib.bib28),11 (https://arxiv.org/html/2606.26273#bib.bib32)] 以及线性神经网络 [22 (https://arxiv.org/html/2606.26273#bib.bib33),7 (https://arxiv.org/html/2606.26273#bib.bib30),10 (https://arxiv.org/html/2606.26273#bib.bib26)]。在这些情况下，通常可以证明增强和等变性是等价的。完全非线性网络在 [29 (https://arxiv.org/html/2606.26273#bib.bib18),27 (https://arxiv.org/html/2606.26273#bib.bib38)] 中得到了处理，我们将这些结果推广到贝叶斯网络。

关于增强和约束之间差异的实证研究很多。更系统的处理见 [13 (https://arxiv.org/html/2606.26273#bib.bib34),14 (https://arxiv.org/html/2606.26273#bib.bib39),4 (https://arxiv.org/html/2606.26273#bib.bib1)]。

#### 贝叶斯神经网络。

贝叶斯方法在深度学习中已经研究了多年 [24 (https://arxiv.org/html/2606.26273#bib.bib9)]，因为它们为原本是黑盒模型的神经网络提供了不确定性估计（参见 [12 (https://arxiv.org/html/2606.26273#bib.bib10)] 的博士论文以获取概述）。然而，要使 BNN 实际应用，需要将变分推断整合到深度学习训练方法中 [17 (https://arxiv.org/html/2606.26273#bib.bib16),3 (https://arxiv.org/html/2606.26273#bib.bib7),20 (https://arxiv.org/html/2606.26273#bib.bib8)]。关于 BNN 的综述，重点关注实际应用，请参见 [18 (https://arxiv.org/html/2606.26273#bib.bib6)]。

之前很少有工作考虑 BNN 中的对称性。[31 (https://arxiv.org/html/2606.26273#bib.bib4)] 提出了一种概率群平均的 BNN，以实现软对称性约束，并在数据上进行优化。与我们的工作最接近的是 [26 (https://arxiv.org/html/2606.26273#bib.bib5)]，它使用了一种结合了不同权重共享方案从而包含对称性约束的特定先验。在训练过程中，网络学习哪种对称性最适合数据。相比之下，我们考虑在增强数据上训练，使用不施加权重共享的通用先验。

## 3 理论

我们建立了一个理论框架来理解数据增强如何在变分贝叶斯推断中诱导等变性。我们分三步进行：首先，刻画指数族在什么条件下在群作用下封闭（第 3.2 节）；其次，证明数据增强训练使 ELBO 保持不变，以及这如何影响训练（第 3.3 节）；第三，提出对称化机制并分析其性质（第 3.4 节）。

### 3.1 预备知识

在本节中，我们介绍本文中使用的数学工具。我们从指数族开始，它为我们的理论分析提供了结构支柱，然后回顾变分推断和形式化对称性所需的群论概念。

#### 指数族。

概率分布的指数族通过基测度 h\(θ\)h\(\\theta\)、充分统计量 T\(θ\)∈RkT\(\\theta\)\\in\\mathbb\{R\}^\{k\} 和对数配分函数 A\(η\):=log∫h\(θ\)exp⁡\(η⊤T\(θ\)\)dθA\(\\eta\)~:=~\\log~\\int~h\(\\theta\)\\exp\(\\eta^\{\\top\}T\(\\theta\)\)d\\theta 来定义。如果一个分布的概率密度具有以下形式，则它属于指数族：

qη\(θ\)=h\(θ\)exp⁡\(η⊤T\(θ\)−A\(η\)\),q\_\{\\eta\}\(\\theta\)=h\(\\theta\)\\exp\(\\eta^\{\\top\}T\(\\theta\)\-A\(\\eta\)\)\\,,\(1\)其中 η∈H⊆Rk\\eta\\in H\\subseteq\\mathbb\{R\}^\{k\} 是*自然参数*。此类族的例子包括正态分布、指数分布和对数正态分布。一个指数族 Q:=\{qη\(θ\)∣η∈H\}\\mathcal\{Q\}:=\\\{q\_\{\\eta\}\(\\theta\)\\mid\\eta\\in H\\\}，如果 HH 是开的，则称为*正则的*；如果 T\(θ\)T\(\\theta\) 的分量是线性无关的，则称为*极小的*。

#### 群作用与推前分布。

我们假设一个群 GG 通过表示 ρX\\rho\_\{\\mathcal\{X\}\}、ρY\\rho\_\{\\mathcal\{Y\}\} 和 ρΘ\\rho\_\{\\Theta\} 分别作用在输入空间 X\\mathcal\{X\}、输出空间 Y\\mathcal\{Y\} 和参数空间 Θ\\Theta 上。本文中，我们假设 ρΘ\\rho\_\{\\Theta\} 与数据表示 ρX\\rho\_\{\\mathcal\{X\}\} 和 ρY\\rho\_\{\\mathcal\{Y\}\} 在以下意义上是兼容的：

f\(ρX\(g\)x;θ\)=ρY\(g\)f\(x;ρΘ\(g\)−1θ\)\.f\(\\rho\_\{\\mathcal\{X\}\}\(g\)x;\\theta\)=\\rho\_\{\\mathcal\{Y\}\}\(g\)f\(x;\\rho\_\{\\Theta\}\(g\)^\{\-1\}\\theta\)\.\(2\)遵循神经网络参数的层分解 Θ=⨁lΘl\\Theta=\\bigoplus\_\{\\ell\}\\Theta\_\{\\ell\}，我们假设 ρΘ\\rho\_\{\\Theta\} 按层作用，即 ρΘ=⨁lρΘl\\rho\_\{\\Theta\}=\\bigoplus\_\{\\ell\}\\rho\_\{\\Theta\_\{\\ell\}\}。存在这种 ρΘ\\rho\_\{\\Theta\} 的规范构造：在隐藏层上引入表示 ρΘl\\rho\_\{\\Theta\_\{\\ell\}\}，然后对每个线性层施加相对于作用在该层输入和输出上的两个表示的等变性。只要非线性相对于相同的表示是等变的（这对于逐点非线性和置换表示总是成立），就可以得到 (2 (https://arxiv.org/html/2606.26273#S3.E2))。更多细节参见 [29 (https://arxiv.org/html/2606.26273#bib.bib18)]。ρΘ\\rho\_\{\\Theta\} 的选择，或等价地隐藏层表示的选择，是一个建模决策，我们将在第 3.4 节 (https://arxiv.org/html/2606.26273#S3.SS4) 中重新讨论。在没有混淆风险的情况下，我们分别用 gxgx 和 gygy 作为 ρX\(g\)x\\rho\_\{\\mathcal\{X\}\}\(g\)x 和 ρY\(g\)y\\rho\_\{\\mathcal\{Y\}\}\(g\)y 的简写，但在参数空间中保留显式符号 ρ\(g\)θ\\rho\(g\)\\theta，其中表示结构对我们的分析至关重要。分布 qq 在 g∈Gg\\in G 下的推前定义为

Tg\#q\(B\):=q\(ρ\(g\)−1B\)\\mathcal\{T\}\_\{g\}\\\#q\(B\):=q\(\\rho\(g\)^\{\-1\}B\)\(3\)对于任何可测集 BB，其密度为 Tg\#q\(θ\)=q\(ρ\(g\)−1θ\)\|det⁡D\(ρ\(g\)−1\)\(θ\)\|\\mathcal\{T\}\_\{g\}\\\#q\(\\theta\)=q\(\\rho\(g\)^\{\-1\}\\theta\)\\left\|\\det D\(\\rho\(g\)^\{\-1\}\)\(\\theta\)\\right\|。如果对所有 g∈Gg\\in G 有 Tg\#q=q\\mathcal\{T\}\_\{g\}\\\#q=q，则称分布 qq 是 GG-不变的。

#### 贝叶斯神经网络 (BNN) 与变分推断 (VI)。

神经网络是一个参数化函数 f\(⋅;θ\):X→Yf\(\\cdot;\\theta\):\\mathcal\{X\}\\rightarrow\\mathcal\{Y\}。它们定义了条件标签分布 p\(y\|x,θ\)=p\(y\|f\(x;θ\)\)p\(y\\,\|\\,x,\\theta\)=p\(y\\,\|\\,f\(x;\\theta\)\)。在贝叶斯处理中，我们在权重上放置一个先验 p0\(θ\)p\_\{0\}\(\\theta\)，并通过贝叶斯规则计算给定数据集 D=\{\(xi,yi\)\}i=1N0\\mathcal\{D\}=\\\{\(x\_\{i\},y\_\{i\}\)\\\}\_\{i=1\}^\{N\_\{0\}\} 的后验 p\(θ∣D\)p\(\\theta\\mid\\mathcal\{D\}\)。然而，由于后验神经网络似然通常是难以处理的，我们进行变分推断近似 qη∈Qq\_\{\\eta\}\\in\\mathcal\{Q\}，然后选择参数 η\\eta 来最大化*证据下界* [2 (https://arxiv.org/html/2606.26273#bib.bib15)]

ELBO\(η\):=Eqη\[log⁡p\(D∣θ\)\]−DKL\(qη∥p0\)\.\\mathrm\{ELBO\}\(\\eta\):=\\mathbb\{E\}\_\{q\_\{\\eta\}\}\[\\log p\(\\mathcal\{D\}\\mid\\theta\)\]\-D\_\{\\mathrm\{KL\}\}\(q\_\{\\eta\}\\\|p\_\{0\}\)\\,\.\(4\)后验预测通过从 qηq\_\{\\eta\} 进行蒙特卡洛采样来近似：

Fη\(x\):=Eθ∼qη\[f\(x;θ\)\]≈1T∑t=1Tf\(x;θ\(t\)\),θ\(t\)∼qη\.F\_\{\\eta\}\(x\):=\\mathbb\{E\}\_\{\\theta\\sim q\_\{\\eta\}\}\[f\(x;\\theta\)\]\\approx\\frac\{1\}\{T\}\\sum\_\{t=1\}^\{T\}f\(x;\\theta^\{\(t\)\}\)\\,,\\quad\\theta^\{\(t\)\}\\sim q\_\{\\eta\}\\,\.\(5\)

#### 数据增强。

给定一个有限群 GG 和一个从数据分布 PXP\_\{\\mathcal\{X\}\} 中独立同分布抽取的数据集 D=\{\(xi,yi\)\}i=1N0\\mathcal\{D\}=\\\{\(x\_\{i\},y\_\{i\}\)\\\}\_\{i=1\}^\{N\_\{0\}\}，数据增强构造了一个增强数据集 Daug=\{\(gxi,gyi\)∣g∈G,\(xi,yi\)∈D\}\\mathcal\{D\}\_\{\\mathrm\{aug\}\}=\\\{\(gx\_\{i\},gy\_\{i\}\)\\mid g\\in G,\(x\_\{i\},y\_\{i\}\)\\in\\mathcal\{D\}\\\}，将数据集扩大 \|G\|\|G\| 倍。也可以考虑一个连续的紧致群，通过采样有限多个 Haar 分布群元素。这带来了一些微妙之处，我们在附录 A (https://arxiv.org/html/2606.26273#A1) 中讨论。在下面的内容中，我们假设使用有限群，以使叙述简洁。训练增强 ELBO（即最大化相对于 qηq\_\{\\eta\} 的增强数据的对数似然期望与 KL 散度项之差）。

贝叶斯神经网络的等变性和数据增强

相似文章

自然场景中的对称性：等变性在神经流体替代模型中的作用

数据增强如何塑造神经表征

数据增强：傅里叶分析视角

神经变异性增强人工网络鲁棒性

超越神经网络的数据驱动变分基学习：一种用于自适应基发现的非神经网络框架

提交意见反馈