@TensorTonic:你几乎在每一个模型里都会用到 ReLU、GELU 和 Softmax。但你能不查资料,凭记忆写出它们的前向传播和梯度吗……
摘要
一条推广 TensorTonic 的推文。该平台让用户从头实现九种常见激活函数(Sigmoid、ReLU、Tanh、Softmax、Leaky ReLU、GELU、Swish、ELU、SELU),包括前向传播和梯度计算。
查看缓存全文
缓存时间: 2026/06/27 13:56
在构建几乎每个模型时,你都会用到 ReLU、GELU 和 Softmax。但你能在不查阅参考资料的情况下,凭记忆写出它们的前向传播和梯度吗?
Sigmoid ReLU Tanh Softmax Leaky ReLU GELU Swish ELU SELU
九种激活函数,每种都通过从零实现来讲解。
在 TensorTonic 上练习所有函数。
相似文章
@tetsuoai: 神经网络的核心就在四张卡片上。神经元、前向传播、激活函数、反向传播。学会这四个概念,你就能……
一套覆盖神经网络核心概念的四张卡片:神经元、前向传播、激活函数和反向传播,旨在帮助学习者理解从感知机到Transformer等模型的工作原理。
@NFTCPS: 天天喊着搞AI,结果你连Transformer是个啥都说不清? 有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链…
一个GitHub开源项目,从零实现完整的GPT训练流程,包含数据预处理、预训练、SFT和RLHF后训练,全部基于原生PyTorch,适合想深入理解Transformer原理的开发者。
Bug or Feature^2:权重漂移、激活稀疏性与尖峰
本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。
@gordic_aleksa: 新深度博文时刻:Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨,我…
一篇深入探讨现代密集Transformer内部工作原理的博文,涵盖YaRN(位置信息)、混合注意力(实现160k上下文长度)、soft capping、QK归一化,以及Transformer数学(包括FLOPs/Token公式和集群规模估算)。
@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587
作者分享了从头训练一个160M参数大语言模型的经验,尝试了多种架构,如多Token预测和分层推理模型。他强调快速迭代、简化思路以及理解架构有效原因的重要性。