@TensorTonic：你几乎在每一个模型里都会用到 ReLU、GELU 和 Softmax。但你能不查资料，凭记忆写出它们的前向传播和梯度吗……

X AI KOLs Timeline 2026/06/27 10:53 工具

摘要

一条推广 TensorTonic 的推文。该平台让用户从头实现九种常见激活函数（Sigmoid、ReLU、Tanh、Softmax、Leaky ReLU、GELU、Swish、ELU、SELU），包括前向传播和梯度计算。

你几乎在每一个模型里都会用到 ReLU、GELU 和 Softmax。但你能不查资料，凭记忆写出它们的前向传播和梯度吗？ > Sigmoid > ReLU > Tanh > Softmax > Leaky ReLU > GELU > Swish > ELU > SELU 九种激活函数，每一种都通过从头实现来讲解。在 TensorTonic 上练习它们全部。

查看原文

查看缓存全文

缓存时间: 2026/06/27 13:56

在构建几乎每个模型时，你都会用到 ReLU、GELU 和 Softmax。但你能在不查阅参考资料的情况下，凭记忆写出它们的前向传播和梯度吗？

Sigmoid ReLU Tanh Softmax Leaky ReLU GELU Swish ELU SELU

九种激活函数，每种都通过从零实现来讲解。

在 TensorTonic 上练习所有函数。

相似文章

@tetsuoai: 神经网络的核心就在四张卡片上。神经元、前向传播、激活函数、反向传播。学会这四个概念，你就能……

X AI KOLs Timeline

一套覆盖神经网络核心概念的四张卡片：神经元、前向传播、激活函数和反向传播，旨在帮助学习者理解从感知机到Transformer等模型的工作原理。

@NFTCPS: 天天喊着搞AI，结果你连Transformer是个啥都说不清？有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链…

X AI KOLs Timeline

一个GitHub开源项目，从零实现完整的GPT训练流程，包含数据预处理、预训练、SFT和RLHF后训练，全部基于原生PyTorch，适合想深入理解Transformer原理的开发者。

@TensorTonic：你几乎在每一个模型里都会用到 ReLU、GELU 和 Softmax。但你能不查资料，凭记忆写出它们的前向传播和梯度吗……

相似文章

@tetsuoai: 神经网络的核心就在四张卡片上。神经元、前向传播、激活函数、反向传播。学会这四个概念，你就能……

@NFTCPS: 天天喊着搞AI，结果你连Transformer是个啥都说不清？有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链…

Bug or Feature^2：权重漂移、激活稀疏性与尖峰

@gordic_aleksa: 新深度博文时刻：Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨，我…

@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587

提交意见反馈

相似文章

@tetsuoai: 神经网络的核心就在四张卡片上。神经元、前向传播、激活函数、反向传播。学会这四个概念，你就能……

@NFTCPS: 天天喊着搞AI，结果你连Transformer是个啥都说不清？ 有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链…

Bug or Feature^2：权重漂移、激活稀疏性与尖峰

@gordic_aleksa: 新深度博文时刻：Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨，我…

@harshbhatt7585: https://x.com/harshbhatt7585/status/2063593933314113587

提交意见反馈

@NFTCPS: 天天喊着搞AI，结果你连Transformer是个啥都说不清？有个仓库够狠，从零手搓一个GPT，不调任何高级库。Attention、多头、前馈、Embedding、残差、Layer Norm，怎么拼起来的全摊给你看。而且不止模型，整条链…