@amitiitbhu: - 注意力背后的数学 - Q、K、V - 注意力中 √dₖ 缩放因子的数学 - 反向传播背后的数学 - 梯…

X AI KOLs Timeline 2026/05/24 08:26 新闻

attention transformer machine-learning deep-learning mathematics explanation

摘要

一条推文，解释了关键Transformer概念背后的数学基础，包括注意力、缩放因子、反向传播、梯度下降、交叉熵损失、RoPE和RMSNorm。

- 注意力背后的数学 - Q、K、V - 注意力中 √dₖ 缩放因子的数学 - 反向传播背后的数学 - 梯度下降背后的数学 - 交叉熵损失背后的数学 - RoPE（旋转位置编码）背后的数学 - RMSNorm（均方根层归一化）

查看原文

相似文章

X AI KOLs Timeline

Amit Shekhar 撰写的一篇教育博客文章，解释了 Attention 机制的数学原理，特别是详细阐述了 Query、Key 和 Value 矩阵，并辅以逐步的数值示例。

X AI KOLs Timeline

本文提供了大型语言模型中Transformer架构的可视化指南，涵盖自注意力、因果自注意力、掩码多头注意力以及输出层，并附有逐步解释和示例。

X AI KOLs Timeline

一篇深入探讨现代密集Transformer内部工作原理的博文，涵盖YaRN（位置信息）、混合注意力（实现160k上下文长度）、soft capping、QK归一化，以及Transformer数学（包括FLOPs/Token公式和集群规模估算）。

X AI KOLs Timeline

一篇关于现代深度学习的详细个人综述，聚焦于基础模型、视觉语言模型及其架构决策，面向那些希望获得直觉而非密集数学的读者。

X AI KOLs Following

解释了由于注意力的二次复杂度，扩展Transformer上下文窗口所带来的内存挑战，并暗示了解决方案。