NSRAM: 硅芯片上的人工神经元
摘要
本文讨论了NSRAM,一种新型的硅芯片上的人工神经元,旨在通过模仿生物神经元,大幅提高AI的能效,解决数据中心GPU高能耗的问题。
暂无内容
查看缓存全文
缓存时间: 2026/07/02 18:24
# NSRAM:硅芯片上的人工神经元
来源:https://spectrum.ieee.org/artificial-neurons-on-silicon-chips?itm_campaign=hero-2026-07-02&itm_content=hero1&itm_medium=hero&itm_source=homepage
**今天,你很可能**向一个大型语言模型提出了问题,或者在[LinkedIn](https://spectrum.ieee.org/tag/linkedin)上接受了某个好友推荐,或是在[YouTube](https://spectrum.ieee.org/tag/youtube)上观看了推荐的视频,又或者根据[Google](https://spectrum.ieee.org/tag/google)[地图](https://spectrum.ieee.org/tag/traffic-prediction)的[交通预测](https://spectrum.ieee.org/tag/traffic-prediction)选择了另一条通勤路线。换句话说,你很可能使用了[人工智能](https://spectrum.ieee.org/topic/artificial-intelligence/)。但你可能不知道的是,这次互动消耗了多少能量,以及为什么消耗这么多。
AI需要处理海量数据,这通常是在大型[数据中心](https://spectrum.ieee.org/tag/data-centers)中完成的,那里布满了成千上万块每秒能执行数万亿次运算的GPU。然而,每一块GPU达到如此性能所消耗的功率高达1000瓦。作为对比,如果你有一部较新的智能手机,其功耗可能不到1瓦。千瓦级别的功耗使得GPU与吸尘器、洗碗机和炉灶处于同一水平,但巨大的区别在于,[数据中心处理器](https://spectrum.ieee.org/tag/processors)是全天候不间断运行的。
从根本上说,这种低效很大程度上是因为GPU试图通过软件和数十亿个晶体管来模拟人工[神经网络](https://spectrum.ieee.org/tag/neural-networks)的运作,而这需要消耗能量来移动海量数据。此外,构成这些网络的模拟人工神经元,其复杂计算行为甚至远不及构成我们所知最高效计算系统——[人脑](https://spectrum.ieee.org/tag/human-brain)——的生物神经元。
戴着手套的手用镊子夹着一根小棉签,背景是彩色条纹——Dan Page 拍摄
在人类赋予AI的许多可比任务上,人脑的[能效大约高出百万倍](https://www.nist.gov/blogs/taking-measure/brain-inspired-computing-can-help-us-create-faster-more-energy-efficient)。为了接近[这样的能效](https://ieeexplore.ieee.org/document/8094868),一种名为神经形态工程的、截然不同的计算方式,正致力于构建行为更像大脑神经元及其连接突触的电子元件和电路。
大量工作致力于使电子器件运作得更像[生物神经元和突触](https://spectrum.ieee.org/artificial-neuron)。一些研究专注于开发[新型](https://spectrum.ieee.org/memristor-first-single-device-to-act-like-a-neuron)、[实验性器件](https://spectrum.ieee.org/artificial-synapses),但它们尚未足够可靠,无法用于大型系统。另一些努力则通过互连许多互补金属氧化物半导体([CMOS](https://spectrum.ieee.org/tag/cmos))晶体管(数字逻辑的主力军)来模拟单个神经元和突触。但这种方法需要太多晶体管(以及一些笨重的[电容器](https://spectrum.ieee.org/tag/capacitors)),极大地限制了可构建系统的规模,使得这种类脑硬件如何规模化并与最先进的GPU竞争变得不明确。
然而,一直以来,有一种人工神经元和一种突触——每个都是单一器件——就隐藏在显而易见的地方。我们去年找到了它们。它们都借助一个普通的CMOS晶体管实现——甚至不是一个性能出色的晶体管。这就是它们意外发现的故事,以及它们对降低AI环境足迹的巨大潜力。
## 生物神经元与人工神经元
现代数字电子学基于通过金属氧化物半导体[场效应晶体管](https://spectrum.ieee.org/tag/field-effect-transistors)(MOSFET)的运作来产生和处理二进制代码的0和1。MOSFET近年经历了演变,但其经典形式是一块硅,经过掺杂使其含有过量的正电荷载流子(*p*型)或负电荷载流子(*n*型)。(CMOS逻辑包含两种类型的晶体管。)该器件有两个连接到硅片的端子,通过高度掺杂相反极性的区域——源极和漏极。另一个端子——栅极——位于分隔源极和漏极的硅片之上。栅极本身不与这块硅直接相连,而是悬在薄层绝缘介质之上。
值得注意的是,还有第四个端子连接到硅片的体区;将这个体端子视为连接芯片的底面。它通常不受关注,但在我们的故事中非常重要。
当在栅极施加电压且体端子接地时,与源极和漏极相同极性的载流子被吸引到沟道区域。对于 *n* 型源极和漏极,这些载流子是电子;对于 *p* 型则是空穴。这些电荷的存在形成一个导电沟道,将源极和漏极之间的电阻降低几个数量级,器件开启。随着栅极电压增加,这种物理现象产生一个电流信号,当以栅极电压为横轴绘图时,该信号稳定上升。这种响应对于[逻辑门](https://spectrum.ieee.org/tag/logic-gates)、转换器、多路复用器、存储器和其他数字电路来说是理想的。但用于模仿神经元的行为却不太合适。
在真实的神经组织中,被称为神经元的脑细胞由一个细胞体、一个称为轴突的长突起和称为[树突](https://spectrum.ieee.org/tag/dendrites)的短分支突起组成。这组组件能够实现的行为和计算丰富而广泛,但人工神经网络希望复制的那部分是:当细胞体的电压受到足够扰动达到某个特定阈值时,一个自传播的电压脉冲(称为动作电位)沿轴突向下传导。轴突末端终止于突触,这是轴突与另一个神经元树突之间的电化学连接。随后,动作电位会暂时提升后一个神经元的电压,提升幅度取决于突触连接的强度。如果在给定时间内有足够多的动作电位到达这些树突(来自这个神经元或也在该处形成突触的其他神经元),细胞体的电压将超过阈值并触发它自己的动作电位。
为了更接近真实神经元的行为,人工神经元应该在其电压超过临界阈值时产生一个电流尖峰,然后迅速自行回复到静息状态。这个尖峰必须是突然的——非线性的。它还应该表现出一定的迟滞性;也就是说,激活电压和松弛电压应该彼此不同,以确保电流仅持续一定时间。
对人工突触(连接两个人工神经元的东西)的要求不那么复杂,但同样重要。主要一点是其电导可电子调节。器件的导电状态应以线性模式增加和减少,并随时间保持稳定。
没有一个在标准工作机制下工作的单个MOSFET能够再现这些神经特性。相反,这些特性一直是通过将它们组合成复杂电路来实现的。到目前为止,每个神经元和每个突触都是通过互连几十个甚至几百个MOSFET来实现的,这在面积、性能和成本方面非常低效。为了限制所需空间,芯片可以对信号进行多路复用,串行发送到神经元和突触,但这种顺序处理会引入额外的延迟。
尽管在音频处理、[计算机视觉](https://spectrum.ieee.org/tag/computer-vision)或[健康监测](https://spectrum.ieee.org/tag/health-monitoring)等任务上付出了面积和时间代价,但最先进的类脑微芯片在相同任务上的功耗相比GPU或CPU已降低多达千倍。如果我们能够使用单个易于制造的器件来创建神经元和突触,我们就可以在保持[能效](https://spectrum.ieee.org/tag/energy-efficiency)的同时,瞄准更大规模的实现。
## 为AI重塑 MOSFET
2024年在我们实验室工作期间,一名学生正在测量一个由一个晶体管和一个忆阻器组成的存储电路——忆阻器是一种[非易失性存储器](https://spectrum.ieee.org/tag/nonvolatile-memory)器件,于2008年首次制造。学生的[忆阻器](https://spectrum.ieee.org/tag/memristor)电路是用[二维材料](https://spectrum.ieee.org/tag/two-dimensional-material)构建在包含MOSFET的硅微芯片之上的。这些MOSFET是在商业代工厂使用180纳米节点制造技术创建的,该技术在2000年属于前沿。
有一天,学生忘记连接晶体管的体端子。他观察到的是电流突然增加,具有高度非线性,并且当电压斜坡下降时会自行松弛(这种现象称为迟滞回线)。这是一种非常有希望的神经元样行为!
在徒劳地思考了一周这个行为的解释之后,我(Lanza)随后要求我的博士后研究员Pazos尝试在没有[忆阻器](https://spectrum.ieee.org/tag/memristors)的芯片中观察和控制这种现象。这次,我们施加了电压脉冲——就像神经元会产生的那种尖峰——而不是学生第一次看到异常行为时使用的斜坡电压。
Pazos的新数据帮助我们理解了正在发生的事情。关键在于那个经常被忽视的第四个端子,即MOSFET的体端子。在正常操作下,许多在沟道中快速移动的载流子与硅原子碰撞,产生自由的电子-空穴对——这一过程称为碰撞电离。源极和漏极之间的电势差所产生的[电场](https://spectrum.ieee.org/tag/electric-field)导致这些新产生的自由电子向正偏置的漏极漂移,空穴则向通常接地的体端子移动,从而毫无戏剧性地移除电荷。
然而,当晶体管的体端子浮空时——就像学生实验中那样未连接——碰撞电离产生的空穴无法被驱动到地。相反,它们积聚在硅的体区,使其电压升高。然后事情开始变得有趣。
这里,将MOSFET想象成两种不同类型的晶体管占据同一物理空间,会有助于理解——有意构建的MOSFET和一个隐藏的双极型结型晶体管。双极型器件通过在两个*p*-*n*结(这里指源极与沟道区之间、沟道区与漏极之间的界面)上传输电流信号。该信号与位于中间的第三个端子(称为基极)处的较小电流成比例。在我们的实验中,这第三个端子就是体区。
要让电流流过双极型晶体管,需要在基极和另一个端子之间形成足够大的电势差,以便电流能够穿过*p*-*n*结。我们假设这个“阈值电压”为0.7伏,尽管实际数值取决于器件几何形状和硅掺杂。在我们的器件中,这个电势差来自那些在体区中积累的空穴,因为它没有连接到地。一旦达到[阈值电压](https://spectrum.ieee.org/tag/threshold-voltage),器件就会变得强烈导电,产生电流的急剧增加。一旦漏极电压降低,这种急剧的电流增加最终会下降,因为降低电压会减少体区中空穴的产生速率。剩余的多余空穴与游离电子复合或泄漏掉,最终体区电压下降。这个空穴积累、电流尖峰和空穴移除的循环产生了迟滞回线,非常类似于生物神经元在整合离子电流、发射尖峰和松弛回静息电压时的电学行为。
最初,我们只在少数晶体管中观察到这种行为,并且每个晶体管的松弛时间差异很大。因此,为了更好地控制它,我们使用第二个MOSFET来调节体端子的电阻。只需设置该电阻,就突然导致所有晶体管在相同电压下发射,几乎没有变异性。换句话说,我们发现通过控制体接触电阻,可以在单个硅晶体管中创造出完美的电子神经元行为。设置电阻可以通过在制造过程中掺杂硅来实现,但我们认为双晶体管单元——其中一个充当体电阻——提供了更大的多功能性,因为它允许电子控制。
我们必须确保这种现象能够持续,否则这样的器件将毫无用处。令我们高兴的是,我们测试的每一个器件都工作了超过1000万次循环。在我们的测试中,甚至没有一个器件失效。
说实话,我们感到惊讶。过去20年中,世界各地的数十个研究小组和公司花费了数百万美元,试图使用实验性的[忆阻器类器件](https://spectrum.ieee.org/memristor-first-single-device-to-act-like-a-neuron)和其他东西来模拟这些神经行为,但成功有限,主要是由于可靠性和成本问题。我们却在最便宜、最工业标准的器件——[MOSFET](https://spectrum.ieee.org/tag/mosfet)——中做到了。这个结果太令人震惊了,我们决定使用来自不同[代工厂](https://spectrum.ieee.org/tag/foundry)的[微芯片](https://spectrum.ieee.org/tag/microchips)来确认它。成功了:所有行为都可以重现,并且再次实现了完美的良率。
我们对结果感到满意,并开始申请专利和为期刊 **Nature** 撰写我们的发现(https://www.nature.com/articles/s41586-025-08742-4),这时我们的实验室又做出了另一个惊人的发现:同一种MOSFET也可以充当[突触](https://spectrum.ieee.org/tag/synapse)!
回顾一下,在常规操作中,一些[电子](https://spectrum.ieee.org/tag/electrons)撞击硅原子产生电子-空穴对。我们注意到,在特定的体电阻值下,来自这种碰撞电离的大量电荷会被捕获在[栅极介质](https://spectrum.ieee.org/tag/gate-dielectric)中。这种被捕获的电荷干扰了通过MOSFET的电流流动,有效地改变了器件的电导。重要的是,这种新的电导是稳定的,并且可以随意调节。正是在那时,我们意识到MOSFET也可以用作电子突触。
与神经元晶体管一样,体端子是关键。负的体-源电压将电子驱动进入[介质层](https://spectrum.ieee.org/tag/dielectric),降低电导。正的体-源电压则将空穴推入,增加电导。
## 从神经形态器件到电路再到系统
以下是MOSFET突触和MOSFET神经元协同工作的方式……(文章未完,但根据要求,我们只翻译了给定部分。注意:用户提供的文本在“Together the MOSFET synapse and the MOSFET neuron, tog”处截断,但我们应翻译到此处为止。)
相似文章
类脑光晶体管通过感知和存储数据,有望降低AI能耗
研究人员开发出一种类脑光晶体管,能够感知和存储数据,有望降低AI能耗。
你的大脑用20瓦就能做到的事情,AI却需要核反应堆才能尝试。上周,一个团队弄清楚了如何打印出能与活体脑细胞对话的东西。
西北大学的研究人员用二硫化钼和石墨烯墨水打印出了人工神经元,能产生生物逼真的电脉冲,活体小鼠脑细胞将其识别为自然信号。这一突破对节能的神经形态计算意义重大。
受大脑启发的人工智能架构可实现更快计算且功耗大幅降低
一种受大脑启发的人工智能架构有望实现更快计算,同时功耗大幅降低,可能推动节能型AI硬件的发展。
@Phoenixyin13: 现在的人工智能领域陷入了一个非此即彼的怪圈。 一边是统治世界的 Transformer 架构,它记性极好,但由于计算量呈平方级爆炸,长文本读得越多就越贵,活脱脱一个吞金兽。 另一边是老牌的 RNN 架构,计算速度极快,成本很低,但它是个彻…
本文介绍了Google Research联合康奈尔和南加大提出的一种新方法,通过为RNN的记忆拍快照并缓存,使RNN能高效处理长文本,兼具Transformer的强记忆和RNN的低成本,为长上下文AI提供新方向。
面向ReRAM的模型微调:解决I-V非线性和保持误差问题
提出了一种基于微调的硬件感知训练算法,以减轻ReRAM交叉阵列中的I-V非线性和保持误差,从而以最小开销实现鲁棒的DNN部署。在图像分类和问答任务上进行了评估,达到了接近基线的准确率。