更新人工神经网络中的标准神经元模型
摘要
本文提出用更真实的皮层细胞模型替换人工神经网络中的标准点神经元模型,声称在表达能力、鲁棒性、学习速度方面有所改进,并减少了记忆化和数据需求。
arXiv:2605.30370v1 公告类型:交叉
摘要:自20世纪50年代人工神经网络(ANNs)诞生以来,它们开始使用当时神经科学中流行的所谓点神经元模型,希望这种类比能够更好地模拟大脑功能。多年来,神经科学文献表明,点神经元模型过于简单,无法恰当表示许多基本的神经过程;然而,ANNs中的标准神经元模型仍然保持不变。在这里,我们用一个非常新的皮层细胞模型替换它,并通过理论分析和实验结果证明,仅仅通过使用更真实的神经单元元素而不增加参数数量,所产生的ANNs提供了许多重要优势,包括表达性、鲁棒性和学习速度的提高,以及记忆化和所需训练数据量的减少。
查看缓存全文
缓存时间: 2026/06/01 09:29
# 更新人工神经网络中的标准神经元模型 来源:https://arxiv.org/html/2605.30370 \[1\] \fnmMarcelo\surBertalmío 1\]\orgname西班牙国家研究委员会(CSIC),\orgaddress\city马德里,\country西班牙 2\]\orgname数学研究中心(CIMAT),\orgaddress\city瓜纳华托,\country墨西哥 3\]\orgname马德里自治大学(UAM),\orgaddress\city马德里,\country西班牙 4\]\orgname国家科学基金会(NSF),\orgaddress\city亚历山大,\stateVA,\countryUSA \fnmThomas\surBatard\fnmErik\surVelasco\-Salido\fnmRamsses\surDe Los Santos Mendoza\fnmJorge H.\surMartínez\fnmStacey\[email protected] (https://arxiv.org/html/2605.30370v1/mailto:[email protected])\[\[\[ ###### 摘要 自20世纪50年代诞生以来,人工神经网络(ANN)便开始采用当时神经科学中流行的所谓点神经元模型,希望这种类比能够更好地模拟大脑功能。多年来,神经科学文献已表明,点神经元模型过于简单,无法恰当表示许多基本的神经过程;然而,ANN中的标准神经元模型至今仍保持不变。在此,我们用一个非常新的皮层细胞模型替换它,并通过理论分析和实验结果证明:仅仅通过使用一个更逼真的神经单元(同时不增加参数数量),所得到的ANN就能获得一系列重要优势,包括表达能力、鲁棒性和学习速度的提升,以及记忆化需求和所需训练数据量的减少。 ## 引言 在20世纪中期的神经科学中,关于神经计算的主流观点是一种简单的抽象\[\ [1 (https://arxiv.org/html/2605.30370#bib.bib1),2 (https://arxiv.org/html/2605.30370#bib.bib2)\],即现在所谓的点神经元模型。该模型假设每个单独的神经元线性地求和其输入,即其树突是被动的,只是充当传入信号的“读取器”,然后在这个线性滤波之后,再进行一个非线性过程以产生神经元输出。这种方法是人工神经网络(ANN)在20世纪50年代末诞生时被用来表示神经元的\[3 (https://arxiv.org/html/2605.30370#bib.bib3)\],其信念是模仿大脑应从模仿其构建块——神经元开始\[4 (https://arxiv.org/html/2605.30370#bib.bib4)\]。直到今天,人工神经网络中的神经元仍然遵循同样的范式\[5 (https://arxiv.org/html/2605.30370#bib.bib5)\],并且ANN中线性-非线性阶段的级联被称为标准深度学习(DL)框架\[6 (https://arxiv.org/html/2605.30370#bib.bib6)\]。然而,当前最流行的ANN架构与大脑功能的对齐性很差\[7 (https://arxiv.org/html/2605.30370#bib.bib7),8 (https://arxiv.org/html/2605.30370#bib.bib8),9 (https://arxiv.org/html/2605.30370#bib.bib9),10 (https://arxiv.org/html/2605.30370#bib.bib10)\],并且具有一些不影响生物的严重局限性,例如需要大量训练数据,以及对几乎不可察觉的输入扰动极其敏感\[11 (https://arxiv.org/html/2605.30370#bib.bib11)\]。我们的猜想如下:ANN的这些及其他根本性限制和缺陷的根源在于点神经元模型过于简单。它假定树突只进行线性操作,但自20世纪90年代末和21世纪初以来,人们已经清楚树突处理不仅更复杂,而且复杂的树突计算是关键的神经行为和大脑功能不可或缺的元素\[12 (https://arxiv.org/html/2605.30370#bib.bib12),13 (https://arxiv.org/html/2605.30370#bib.bib13),14 (https://arxiv.org/html/2605.30370#bib.bib14)\]。值得注意的是,树突的一个基本属性是它们可以接收从胞体起始的反向传播动作电位(backpropagating action potentials)\[15 (https://arxiv.org/html/2605.30370#bib.bib15)\],而bAPs对于树突、单细胞及整个网络计算的重要性怎么强调都不为过\[16 (https://arxiv.org/html/2605.30370#bib.bib16),17 (https://arxiv.org/html/2605.30370#bib.bib17),18 (https://arxiv.org/html/2605.30370#bib.bib18)\]。目前,研究界对利用神经科学加速人工智能(AI)进展重新产生了兴趣\[19 (https://arxiv.org/html/2605.30370#bib.bib19)\],并且一些近期的工作考虑了更逼真的树突模型以改善ANN的性能\[20 (https://arxiv.org/html/2605.30370#bib.bib20),5 (https://arxiv.org/html/2605.30370#bib.bib5)\]。然而,这些方法仍属于标准DL框架,不足以表示由bAPs引起的细胞输出与树突贡献之间的来回交互\[21 (https://arxiv.org/html/2605.30370#bib.bib21)\]。最近,一个考虑树突非线性与bAPs之间交互的初级视觉皮层新神经元模型被证明能够解释许多挑战标准方法的生理结果\[22 (https://arxiv.org/html/2605.30370#bib.bib22)\]。在此,我们将这个更逼真的生物神经元活动模型改编为ANN中神经单元的一个新公式。与使用标准神经元模型且参数数量相同的ANN相比,使用这个更新神经元模型构建的ANN受上述关键局限性的影响小得多:正如我们的理论分析和实验结果所示,它对输入扰动的鲁棒性大大增强,同时所需的训练数据量显著减少。此外,该新神经元模型还允许网络获得其他非常重要的优势:表达能力更强,在解决任务时达到给定质量水平所需的参数更少;学习速度更快,以更少的学习步数达到目标性能;以及记忆化更少,当训练数据带有噪声或错误标签样本时(这通常是常见情况),这一点便是优势。 ## 结果 ### 更新神经元模型 我们说一个ANN遵循标准模型(SM),当一个神经单元在给定输入x∈RN\mathbf{x}\in\mathbb{R}^N时的输出uiu_i可以写为: ui\displaystyle u_i=φ(yi),=\phi(y_i),(1) yi\displaystyle y_i=∑j=1Nmijxj−bi,=\sum_{j=1}^N m_{ij}x_j - b_i,(2) 其中mi∈RN\mathbf{m}_i\in\mathbb{R}^N是一个线性滤波器,bi∈Rb_i\in\mathbb{R}是偏置项,φ\phi是(非线性)激活函数。参考标题(a)参考标题(b)图1:神经元模型示意图。左侧:ANN中的标准神经元模型,遵循20世纪50年代神经科学的简单抽象\[1,2\],假设线性树突和输出非线性。右侧:提出的神经元模型,基于最近的皮层细胞模型\[22\];请注意这个新模型如何通过考虑内部非线性σ\sigma(代表树突过程)来扩展标准神经元模型,并且这些非线性以一种动态方式受到活动值z_i(代表从胞体到树突的bAP)的影响,而该值本身又依赖于输入x_j和其他神经元的贡献z_k。我们在这里为ANN提出一个新的神经元模型,通过添加一个新的偏置项来扩展标准模型,该偏置项受近期神经科学工作\[22\]的启发,模拟了树突非线性与其与bAP交互的贡献。在我们的公式中,给定输入x∈RN\mathbf{x}\in\mathbb{R}^N时神经单元的输出v_i为 vi\displaystyle v_i=φ(zi),=\phi(z_i),(3) zi\displaystyle z_i=∑j=1Nmijxj−bi⏞yi−λ∑k=1Dwikσ(zk−zi)⏞new bias,=\overbrace{\sum_{j=1}^N m_{ij}x_j - b_i}^{y_i}\, -\,\overbrace{\lambda\sum_{k=1}^D w_{ik}\,\sigma\!\left(z_k\!-\!z_i\right)}^{\text{new bias}},(4) 其中λ∈R\lambda\in\mathbb{R},wi=(wik)k=1D∈RD\mathbf{w}_i=(w_{ik})_{k=1}^D\in\mathbb{R}^D是一个线性滤波器,σ\sigma是一个非线性函数。式(4)中的第一项代表由线性树突产生的对输入x的响应;注意这一项与式(2)中的y_i完全一样,这是可以预料的,因为SM只考虑被动树突。式(4)中的第二项则模拟了非线性树突的效果。在这个新的偏置项中,每个树突具有非线性响应函数σ\sigma,它接收两个输入:来自同一神经层相邻单元的贡献z_k,以及值z_i,后者模拟来自胞体的bAP。从式(2)和(4)可以清楚地看出,当λ=0时,我们提出的神经元模型与标准模型完全相同;关于两种模型的示意图,参见图1。重要的是,如果我们取λ和w_i为固定且预定义的,那么所提出的模型具有与SM情况完全相同的可训练参数数量,即m_i和b_i。由于新偏置项涉及z_i,z_i的定义依赖于自身,因此式(4)是隐式的。出于这个原因,我们称使用我们模型的ANN为隐式偏置神经网络(IBNN)。从式(3)和(4)我们可以看到,计算IBNN的输出需要求解一组耦合的隐式方程;虽然这类问题不一定有解,但在我们的情形下,当σ是S形函数且λ<0时,解总是存在且唯一,如我们将要证明的。
相似文章
大脑如何学习 [R]
本文提出了一个新皮层学习框架,满足计算、算法和实现三个层面的合理性标准,通过时间导数和皮层-丘脑回路实现基于错误驱动的预测学习,并指出了相对于反向传播的潜在改进。
广义神经元
本文探讨了深度学习中的通用近似定理,分析了使用 ReLU 激活函数时单个神经元和神经网络层的表示能力。
神经变异性增强人工网络鲁棒性
本文研究受大脑神经变异性启发的相关噪声如何增强人工神经网络对抗对抗攻击和自然图像修改的鲁棒性。
我的玩具脉冲网络在NARMA-10测试中完全失败,但一个简单的神经科学技巧带来了15倍的计算性价比。 [D]
作者描述了一个自建的脉冲神经网络引擎,最初未能通过NARMA-10基准测试,但通过应用神经科学中的异构导线延迟,它获得了可用的记忆深度,并在一个识别任务上相比连续网络实现了15倍的计算效率优势。
生长中的 Neural Cellular Automata
本文探讨了 Neural Cellular Automata 作为一种计算模型,其灵感来源于生物形态发生和再生,展示了简单的局部规则如何导致复杂的全局行为。