@amitiitbhu: - 注意力背后的数学 - Q、K、V - 注意力中 √dₖ 缩放因子的数学 - 反向传播背后的数学 - 梯…
摘要
一条推文,解释了关键Transformer概念背后的数学基础,包括注意力、缩放因子、反向传播、梯度下降、交叉熵损失、RoPE和RMSNorm。
- 注意力背后的数学
- Q、K、V
- 注意力中 √dₖ 缩放因子的数学
- 反向传播背后的数学
- 梯度下降背后的数学
- 交叉熵损失背后的数学
- RoPE(旋转位置编码)背后的数学
- RMSNorm(均方根层归一化)
相似文章
@pallavishekhar_:Attention 背后的数学原理——Q、K 和 V。阅读地址:https://outcomeschool.com/blog/math-behind-attention-qkv…
Amit Shekhar 撰写的一篇教育博客文章,解释了 Attention 机制的数学原理,特别是详细阐述了 Query、Key 和 Value 矩阵,并辅以逐步的数值示例。
@_rohit_tiwari_: https://x.com/_rohit_tiwari_/status/2063982924714901858
本文提供了大型语言模型中Transformer架构的可视化指南,涵盖自注意力、因果自注意力、掩码多头注意力以及输出层,并附有逐步解释和示例。
@gordic_aleksa: 新深度博文时刻:Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨,我…
一篇深入探讨现代密集Transformer内部工作原理的博文,涵盖YaRN(位置信息)、混合注意力(实现160k上下文长度)、soft capping、QK归一化,以及Transformer数学(包括FLOPs/Token公式和集群规模估算)。
@bqbrady: https://x.com/bqbrady/status/2064055370809778371
一篇关于现代深度学习的详细个人综述,聚焦于基础模型、视觉语言模型及其架构决策,面向那些希望获得直觉而非密集数学的读者。
@akshay_pachaar: 扩展上下文窗口不仅仅是关于更大的矩阵。在传统的Transformer中,将token数量扩大8倍会…
解释了由于注意力的二次复杂度,扩展Transformer上下文窗口所带来的内存挑战,并暗示了解决方案。