@TensorTonic:你几乎在每一个模型里都会用到 ReLU、GELU 和 Softmax。但你能不查资料,凭记忆写出它们的前向传播和梯度吗……

X AI KOLs Timeline 工具

摘要

一条推广 TensorTonic 的推文。该平台让用户从头实现九种常见激活函数(Sigmoid、ReLU、Tanh、Softmax、Leaky ReLU、GELU、Swish、ELU、SELU),包括前向传播和梯度计算。

你几乎在每一个模型里都会用到 ReLU、GELU 和 Softmax。但你能不查资料,凭记忆写出它们的前向传播和梯度吗? > Sigmoid > ReLU > Tanh > Softmax > Leaky ReLU > GELU > Swish > ELU > SELU 九种激活函数,每一种都通过从头实现来讲解。 在 TensorTonic 上练习它们全部。
查看原文
查看缓存全文

缓存时间: 2026/06/27 13:56

在构建几乎每个模型时,你都会用到 ReLU、GELU 和 Softmax。但你能在不查阅参考资料的情况下,凭记忆写出它们的前向传播和梯度吗?

Sigmoid ReLU Tanh Softmax Leaky ReLU GELU Swish ELU SELU

九种激活函数,每种都通过从零实现来讲解。

在 TensorTonic 上练习所有函数。

相似文章

@NFTCPS: 天天喊着搞AI,结果你连Transformer是个啥都说不清? 有个仓库够狠,从零手搓一个GPT,不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm,怎么拼起来的全摊给你看。而且不止模型,整条链…

X AI KOLs Timeline

一个GitHub开源项目,从零实现完整的GPT训练流程,包含数据预处理、预训练、SFT和RLHF后训练,全部基于原生PyTorch,适合想深入理解Transformer原理的开发者。

Bug or Feature^2:权重漂移、激活稀疏性与尖峰

Hugging Face Daily Papers

本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。