@amitiitbhu: - 注意力背后的数学 - Q、K、V - 注意力中 √dₖ 缩放因子的数学 - 反向传播背后的数学 - 梯…

X AI KOLs Timeline 新闻

摘要

一条推文,解释了关键Transformer概念背后的数学基础,包括注意力、缩放因子、反向传播、梯度下降、交叉熵损失、RoPE和RMSNorm。

- 注意力背后的数学 - Q、K、V - 注意力中 √dₖ 缩放因子的数学 - 反向传播背后的数学 - 梯度下降背后的数学 - 交叉熵损失背后的数学 - RoPE(旋转位置编码)背后的数学 - RMSNorm(均方根层归一化)
查看原文

相似文章