@tetsuoai: 神经网络的核心就在四张卡片上。神经元、前向传播、激活函数、反向传播。学会这四个概念,你就能……
摘要
一套覆盖神经网络核心概念的四张卡片:神经元、前向传播、激活函数和反向传播,旨在帮助学习者理解从感知机到Transformer等模型的工作原理。
神经网络的核心就在四张卡片上。
神经元、前向传播、激活函数、反向传播。学会这四个概念,你就能理解从感知机到Transformer等每一个模型是如何预测和学习的。https://t.co/YAvqCueZPN
查看缓存全文
缓存时间: 2026/06/24 22:30
神经网络的全部核心,四张卡片即可概括。神经元、前向传播、激活函数、反向传播。学会这四个概念,你就能理解从感知机到Transformer的每一个模型是如何预测和学习的。https://t.co/YAvqCueZPN
相似文章
@TensorTonic:你几乎在每一个模型里都会用到 ReLU、GELU 和 Softmax。但你能不查资料,凭记忆写出它们的前向传播和梯度吗……
一条推广 TensorTonic 的推文。该平台让用户从头实现九种常见激活函数(Sigmoid、ReLU、Tanh、Softmax、Leaky ReLU、GELU、Swish、ELU、SELU),包括前向传播和梯度计算。
@stanfordnlp: 很多人大概知道 Transformer 是如何工作的。要真正理解现代神经语言模型——MoE、GPU 分块、算子内核、RLHF、数据——你需要修读 CS336
斯坦福 CS336 课程探讨现代神经语言模型,涵盖 MoE 和 RLHF 等主题,现已在 YouTube 发布,延迟约两周。
karpathy/nn-zero-to-hero
Andrej Karpathy 的《Neural Networks: Zero to Hero》是一门免费课程,涵盖从基础神经网络到现代架构(如 Transformer)的内容,配有 YouTube 讲座和 Jupyter notebook。包含 micrograd 和 makemore 的动手实现。
CSP-Atlas: 稀疏Python Transformer中的概念特异性神经回路
本文研究了稀疏8层Python Transformer中的神经回路,发现针对106个编程概念存在专用回路,并将其分解为概念特异性和令牌驱动组件,这对理解代码模型中的结构编码具有重要意义。
@levidiamode: GPU编程第158/365天——我觉得我大致理解了FlashAttention 2、3和4前向传播的高级区别…
作者记录了学习GPU编程的进展,重点在于理解FlashAttention 2、3和4前向传播的高级区别,并列出了需要进一步探索的几个底层概念。