神经变异性增强人工网络鲁棒性

arXiv cs.LG 论文

摘要

本文研究受大脑神经变异性启发的相关噪声如何增强人工神经网络对抗对抗攻击和自然图像修改的鲁棒性。

arXiv:2606.13801v1 公告类型:新论文 摘要:大脑皮层中的神经反应在重复刺激下表现出显著的试验间变异性,而外周感觉神经元的反应则更为一致,这使许多人怀疑随机性是否具有意义。已有研究认为,噪声和信号相关性可能针对动物的辨别能力进行了优化,而人工神经网络(ANN)研究表明,噪声在机器学习任务中也有类似益处,尽管大多数ANN工作忽略了相关性的影响。本文探讨了相关噪声是否能够提高人工神经网络对抗对抗攻击和自然图像修改的鲁棒性。通过比较修改输入与干净输入下的激活协方差,我们发现结构化噪声能够显著提高网络的鲁棒性。对自然图像修改的鲁棒性最受益于这种结构,但这种结构在不同修改类型之间的迁移性较差。相比之下,来自对抗攻击的噪声结构可以推广到其他类型的攻击。这些结果表明,ANN激活中的结构化噪声通常能提高鲁棒性,从而建立了一种仅依赖局部信息的、具有生物学合理性的鲁棒人工神经网络构建策略。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:07

# 神经变异性增强人工网络鲁棒性
来源:https://arxiv.org/html/2606.13801
Praveen Venkatesh艾伦研究所,西雅图,WA 98195Stefan Mihalas艾伦研究所,西雅图,WA 98195Kameron Decker Harris计算机科学系,西华盛顿大学,贝灵厄姆,WA 98225通讯作者:harri267@wwu\.edu

\(2026年6月11日\)

###### 摘要

皮层中的神经反应在重复刺激下表现出显著的试次间变异性,而外周感觉神经元的反应则更为一致,这导致许多人思考随机性是否可能具有意义。已有工作认为,噪声和信号相关性可能在动物中针对判别任务进行了优化,而人工神经网络(ANN)研究也显示了噪声在机器学习任务中的类似益处,尽管大多数ANN研究忽略了相关性的影响。本文研究了相关噪声是否能够提高人工神经网络对对抗攻击和自然图像修改的鲁棒性。通过使用在修改输入与干净输入下的激活协方差,我们发现结构化噪声可以显著提升网络鲁棒性。对自然图像修改的鲁棒性从结构中受益最多,但这种结构在不同修改类型之间迁移性较差。相比之下,来自对抗攻击的噪声结构可以泛化到其他类型的攻击。这些结果表明,ANN激活中的结构化噪声通常能提高鲁棒性,这为创建仅依赖局部信息的鲁棒人工神经网络提供了一种生物可行的策略。

## 1 引言

大脑是有噪声的,但这种噪声是否有益,或者是否体现了贝叶斯意义上的不确定性,仍是一个有争议的问题\[14 (https://arxiv.org/html/2606.13801#bib.bib2),11 (https://arxiv.org/html/2606.13801#bib.bib7),18 (https://arxiv.org/html/2606.13801#bib.bib8)\]。与此同时,随机人工神经网络(ANN)已被探索用于可处理的理论\[1 (https://arxiv.org/html/2606.13801#bib.bib12),9 (https://arxiv.org/html/2606.13801#bib.bib13)\]、贝叶斯推断\[16 (https://arxiv.org/html/2606.13801#bib.bib15)\]以及改进的泛化能力\[21 (https://arxiv.org/html/2606.13801#bib.bib18)\]或鲁棒性\[25 (https://arxiv.org/html/2606.13801#bib.bib19)\]。

ANN对不会欺骗动物的扰动非常敏感。这些扰动可以在知道或不知道模型权重的情况下构造,分别称为白盒或黑盒攻击。\[25 (https://arxiv.org/html/2606.13801#bib.bib19)\]提出向网络输入添加高斯噪声以防御这些攻击,并且这种方法可以得到认证\[2 (https://arxiv.org/html/2606.13801#bib.bib11)\]。参数化噪声注入(PNI)使用对角噪声协方差向激活或权重添加噪声\[19 (https://arxiv.org/html/2606.13801#bib.bib5)\],而彩色噪声注入(CNI)则允许通过反向传播学习协方差结构(低秩加对角),并应用于权重\[26 (https://arxiv.org/html/2606.13801#bib.bib16)\]。\[4 (https://arxiv.org/html/2606.13801#bib.bib6)\]表明,未经学习的V1样特征结合随机尖峰活动也能在图像分类任务中提供保护,这可以通过表示几何与噪声的相互作用来解释\[3 (https://arxiv.org/html/2606.13801#bib.bib20)\]。

相关性已被用于解释神经科学中的多种现象\[5 (https://arxiv.org/html/2606.13801#bib.bib21)\],甚至存在最优相关性的模型,例如符号规则,该规则指出最优噪声和信号相关性具有相反的符号\[8 (https://arxiv.org/html/2606.13801#bib.bib22)\]。受小鼠V1中噪声活动记录的启发,\[23 (https://arxiv.org/html/2606.13801#bib.bib1)\]假设最优噪声的协方差应当沿着垂直于最优决策边界的方向收缩(如符号规则所述),而在任务无关的方向上具有最大方差。这一假设得到了小鼠V1数据分析的支持,并且他们实现了一个带有噪声层的神经网络,注入的噪声协方差结构由某些图像的旋转定义,并观察到这提供了对其他图像旋转的鲁棒性,我们在本文中对此进行了扩展。我们受到这项工作的启发及其与神经科学的相关性,旨在测试源自其他类型修改的结构化噪声。

在本文中,我们提出问题:向神经网络注入结构化噪声是否比非结构化噪声带来更强的鲁棒性。我们假设,噪声协方差结构直接源自中间层激活,而非学习得到(如PNI/CNI中那样),可能会提高鲁棒性(图1 (https://arxiv.org/html/2606.13801#S1.F1))。如果结构化噪声能提高ANN的鲁棒性,这将进一步支持大脑中观察到的结构化噪声具有某种功能的观点。与\[23 (https://arxiv.org/html/2606.13801#bib.bib1)\]类似,我们使用高斯噪声,其协方差根据模型在给定层上对干净输入与修改输入的激活差异计算得出。我们选择高斯噪声,因为它是带有相关性的简单噪声模型。在我们的方法中,噪声在受给定修改影响最大的方向上具有最大的变异性。我们选择这种技术是因为增加模型本应不变的方向上的方差可以扩大间隔,而降低分类相关方向上的方差可以避免不同类别表示之间的重叠。在干净数据上用这些带噪声的表示进行训练,可以调整决策边界,使其对与类别无关的数据不敏感,同时避免类别混淆。我们的方法仅依赖于特定层的激活,并且具有生物可行性,因为Hebbian机制可能塑造噪声协方差\[20 (https://arxiv.org/html/2606.13801#bib.bib31),7 (https://arxiv.org/html/2606.13801#bib.bib30)\]。

参见图注

**图1:噪声结构可以提高鲁棒性。** A) 由学习到的决策边界分隔的两个类别的表示。垂直维度与任务无关,但由于数据有限,决策边界在此维度上变化。B) 分类器完美分离干净训练数据,但对对抗攻击等将样本移过边界的修改不鲁棒。C) 结构化噪声(多元高斯分布,以椭圆表示)拟合对抗扰动,并在带噪声数据上重新训练分类器。无噪声表示绘制在椭圆中心。D) 重新训练的决策边界具有更大的间隔,并对进一步的修改具有鲁棒性。另一方面,非结构化噪声将是圆形的,可能导致更小的间隔和更差的两类重叠。

## 2 方法

### 2.1 网络与输入修改

这里我们详细介绍网络的架构以及攻击或扰动输入的方式,统称为“修改”。

#### 2.1.1 架构

我们的基础模型是一个标准神经网络,基于经典的LeNet架构\[10 (https://arxiv.org/html/2606.13801#bib.bib23)\],包含3个卷积层,中间穿插最大池化,后面跟随3个全连接层。我们在Fashion MNIST\[24 (https://arxiv.org/html/2606.13801#bib.bib24), FMNIST;\]数据集上训练了10个epoch,使用tanh\\tanh激活函数(最后一层除外),Adam优化器(学习率0.001),交叉熵损失,批量大小64。第l\\ell层的激活表示为xl∈Rnlx\_\{\\ell\}\\in\\mathbb\{R\}^\{n\_\{\\ell\}\},其中l=0,...,6\\ell=0,\\ldots,6,x0x\_\{0\}为输入,x6x\_\{6\}为分类器logits。在附录中,我们展示了使用视觉Transformer(ViT)和CIFAR-10的类似结果。

#### 2.1.2 对抗攻击

为了研究模型的鲁棒性,我们比较了模型在经历多种修改(包括对抗攻击数据)上的性能。我们使用对抗鲁棒性工具箱\[17 (https://arxiv.org/html/2606.13801#bib.bib9), ART;\]生成攻击,并在每次实验中比较了一系列攻击强度ε=0.001\\varepsilon=0.001到0.2。攻击列表见附录中的表2 (https://arxiv.org/html/2606.13801#A1.T2)。为了将我们的结果与已有的对抗攻击防御方法进行比较,我们使用ART实现了高斯数据增强\[25 (https://arxiv.org/html/2606.13801#bib.bib19)\]和对抗训练\[22 (https://arxiv.org/html/2606.13801#bib.bib28)\]。具体来说,我们在训练和评估期间对100%的数据使用高斯增强,并使用投影梯度下降(PGD)进行对抗训练。

#### 2.1.3 自然主义修改

我们使用imagecorruptions包\[15 (https://arxiv.org/html/2606.13801#bib.bib27)\]和torchvision\[13 (https://arxiv.org/html/2606.13801#bib.bib25),12 (https://arxiv.org/html/2606.13801#bib.bib26)\],通过表2 (https://arxiv.org/html/2606.13801#A1.T2)中所示的多种扰动创建修改后的图像。高斯模糊被排除,因为我们发现它对模型影响不显著。

对于来自imagecorruptions包的图像修改,损坏严重程度由1到5的整数设置。该库要求图像至少为32×3232\\times 32,值范围为0到255,而FMNIST为28×2828\\times 28,值范围为\[0,1\]\[0,1\]。为了解决这些问题,我们在处理前将图像用零填充至32×3232\\times 32,并转换为无符号字节格式。处理后,我们将其裁剪为28×2828\\times 28,转换为浮点格式,如有必要则转换回灰度,并将值限制在\[0,1\]\[0,1\]范围内。对于torchvision修改,我们为变换强度选择一个基础值,然后乘以0.20.2到2.02.0之间的缩放因子。我们还开发了随机遮挡:在图像的随机位置放置一个黑色方块,其边长定义为0.4sH0.4sH,其中ss是0.2≤s≤2.00.2\\leq s\\leq 2.0范围内的缩放因子,HH是(方形)图像的高度。

参见图注

**图2:结构化噪声提高鲁棒性。** 将协方差源自基础模型对修改数据响应的噪声注入到第二个卷积层的激活中(L=2L=2)。噪声协方差设置包括全协方差、对角协方差、单位协方差和无噪声。(左)针对AutoPGD攻击的平均测试准确率随攻击强度变化。(中)针对一系列运动模糊严重程度的平均测试准确率。(右)针对随机遮挡的平均测试准确率,其中给定大小的黑色方块放置在随机位置。

### 2.2 噪声层模型

我们将噪声注入到网络选定噪声层LL的激活xLx\_\{L\}中。该噪声可以是非结构化的(单位协方差),也可以是遵循多元高斯模型的结构化噪声。我们使用一个完全训练好的基础模型,提取干净输入下的层激活xLx\_\{L\}和修改输入下的层激活xL′x^\{\\prime\}\_\{L\}。由此,我们计算训练集所有小批量上差值xL′−xLx^\{\\prime\}\_\{L\}\-x\_\{L\}的nL×nLn\_\{L\}\\times n\_\{L\}经验协方差矩阵CfullC\_\{\\mathrm\{full\}\},并在对角线上添加10−410^\{\-4\}以确保稳定性。

然后,我们使用Cholesky分解向层LL的激活添加具有协方差CC的高斯噪声。我们采用全协方差C=aCfullC=aC\_\{\\mathrm\{full\}\}、对角协方差C=Cdiag=adiag\(Cfull\)C=C\_\{\\mathrm\{diag\}\}=a\\,\\mathrm\{diag\}\(C\_\{\\mathrm\{full\}\}\)或单位协方差C=aIC=aI。为了确保各条件之间噪声强度一致,我们将协方差矩阵CC乘以常数aa,使得归一化迹,即每个维度的方差,

tr\(C\)=1nLTr\(C\)\\mathfrak\{tr\}\(C\)=\\frac\{1\}\{n\_\{L\}\}\\mathrm\{Tr\}\(C\)\(1\)固定在一个给定的尺度上。“Notr\\mathfrak\{tr\}”表示我们未进行迹归一化。然后,冻结包括层LL在内的所有前面层的权重,并使用未扰动数据优化后续层的权重,以最小化训练集上的损失,共训练10个epoch(图12 (https://arxiv.org/html/2606.13801#A1.F12)显示学习曲线)。

### 2.3 实验设置

为了比较结构化噪声与非结构化噪声的效用,我们评估了不同噪声模型对修改输入的鲁棒性。噪声模型按照上述过程进行训练,然后通过递送测试集中训练期间未见过的处理后的图像进行测试。除非另有说明,我们使创建协方差CC时所用的图像处理(攻击、空间变换等)的类型和强度与测试时使用的相匹配。我们使用第二个卷积层作为默认噪声层,尽管我们下面展示了改变LL的结果。为了捕捉网络和试验变异性,我们使用从独立初始权重和噪声样本训练的模型进行每次实验10次运行。对于需要使用非确定性修改数据(例如对抗攻击或随机扰动)的实验,每次试验生成一个全新的数据集。图阴影表示bootstrap 95%置信区间。

## 3 结果

如图2 (https://arxiv.org/html/2606.13801#S2.F2)所示,将结构化噪声注入神经网络的激活中,可以提高模型对对抗攻击、部分遮挡和自然图像修改的鲁棒性。对于对抗攻击,尽管任何噪声都提供一些益处,但当ε\\varepsilon较大时,全协方差噪声的性能显著优于单位协方差或对角协方差噪声。对于AutoPGD,ε=0.16\\varepsilon=0.16,迹尺度tr=2.0\\mathfrak\{tr\}=2.0时,具有全协方差噪声的模型的平均性能为0.55,而单位协方差噪声模型为0.24,tr=2.0\\mathfrak\{tr\}=2.0对角协方差噪声模型为0.34,无噪声模型为0.00。我们在其他白盒对抗攻击中发现了类似的结果(见表1 (https://arxiv.org/html/2606.13801#S3.T1))。相比之下,全协方差噪声对Square攻击的益处明显不那么显著,并且仅出现在最高ε\\varepsilon时。

全协方差噪声对于运动模糊提供了最显著的益处(图2 (https://arxiv.org/html/2606.13801#S2.F2))。在强度为4且tr=0.5\\mathfrak\{tr\}=0.5时,具有全协方差噪声的模型的测试准确率为0.64,而对角协方差和单位协方差噪声模型均为0.29,无噪声模型为0.30。与AutoPGD相反,单位协方差和对角协方差的性能与基线无噪声网络相同。结构化噪声对一系列自然图像修改鲁棒性的影响也存在类似的模式(表1 (https://arxiv.org/html/2606.13801#S3.T1))。全协方差通常提供最佳性能,而对角协方差和单位协方差噪声对噪声修改(高斯噪声、冲击噪声、雪)提供有限的鲁棒性,对其他修改/变换几乎没有益处。一个显著的例外是弹性变换,其中所有方法都未能成功防御。

### 3.1 鲁棒性的最优噪声强度

参见图注

**图3:最优噪声强度取决于图像修改。** 噪声强度由归一化迹tr\\mathfrak\{tr\}设置。(左上)AutoPGD攻击:对于中高强度的攻击,tr=2.0\\mathfrak\{tr\}=2.0优于所有较小的迹值。对于notr\\mathfrak\{tr\},单位噪声表现最佳。

相似文章

不同扰动类型之间对抗鲁棒性的迁移

OpenAI Blog

# 不同扰动类型之间对抗鲁棒性的迁移 来源: [https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/](https://openai.com/index/transfer-of-adversarial-robustness-between-perturbation-types/) OpenAI## 摘要 我们研究深度神经网络在不同扰动类型之间的对抗鲁棒性迁移。虽然大多数关于对抗样本的工作专注于L∞L\_∞和L2L\_2有界扰动,但这些并不能捕捉所有t

测试对未知对手的鲁棒性

OpenAI Blog

# 测试对未知对手的鲁棒性 来源:[https://openai.com/index/testing-robustness/](https://openai.com/index/testing-robustness/) OpenAI 我们开发了一种方法来评估神经网络分类器是否能可靠地抵御训练期间未见过的对抗性攻击。我们的方法产生了一个新的指标 UAR(未知攻击鲁棒性),它评估单个模型对意外攻击的鲁棒性,并强调了需要在更多样化的未知攻击范围内测量性能

鲁棒对抗性输入

OpenAI Blog

研究人员展示了对抗性图像,这些图像能够在多个尺度和视角下可靠地欺骗神经网络分类器,这对自动驾驶汽车所使用的多尺度图像捕捉系统的鲁棒性假设提出了挑战。

神经网络策略的对抗性攻击

OpenAI Blog

OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。