@amitiitbhu: Q × Kᵀ 告诉模型每个词与其他词的相关性。Softmax 将其转换为概率。V 提供…
摘要
一条推文解释了Transformer模型中注意力机制的核心公式:Q × Kᵀ 计算相关性,Softmax 将其转换为概率,V 提供内容,构成了现代AI的基础。
Q × Kᵀ 告诉模型每个词与其他词的相关性。
Softmax 将其转换为概率。V 提供实际内容。
一个公式。三个步骤。现代AI的完整基础。
查看缓存全文
缓存时间: 2026/06/27 15:58
Q × KT 告诉模型每个词与其它词之间的相关性。
Softmax 将其转化为概率。V 提供实际内容。
一个公式。三步运算。整个现代 AI 的基础。
相似文章
@amitiitbhu: - 注意力背后的数学 - Q、K、V - 注意力中 √dₖ 缩放因子的数学 - 反向传播背后的数学 - 梯…
一条推文,解释了关键Transformer概念背后的数学基础,包括注意力、缩放因子、反向传播、梯度下降、交叉熵损失、RoPE和RMSNorm。
@pallavishekhar_:Attention 背后的数学原理——Q、K 和 V。阅读地址:https://outcomeschool.com/blog/math-behind-attention-qkv…
Amit Shekhar 撰写的一篇教育博客文章,解释了 Attention 机制的数学原理,特别是详细阐述了 Query、Key 和 Value 矩阵,并辅以逐步的数值示例。
@Phoenixyin13: 我认为这是ICML 2026里的上乘工作。 传统 Transformer 的 Attention 机制,本质上是点对点匹配,把输入切成一堆 token,即离散点,然后算 Query 和 Key 的相似度,再加权 Value。 这在 NLP…
介绍ICML 2026论文Functional Attention,将函数作为第一公民,用结构化线性算子替代softmax点对点相似度,解决传统Transformer处理连续函数时离散化、分辨率敏感和计算复杂度高的问题,在PDE求解、3D分割等任务上达到或超过SOTA,并具良好OOD泛化能力。
@antoniolupetti:丹尼尔·朱拉夫斯基和詹姆斯·H·马丁所著的《Transformers》是我读过的最清晰、数学基础最扎实的介绍之一……
一条推文重点介绍了朱拉夫斯基和马丁教科书中的Transformer架构章节,赞扬其对自注意力、多头注意力及相关机制清晰且数学基础扎实的解释。
@_rohit_tiwari_: https://x.com/_rohit_tiwari_/status/2063982924714901858
本文提供了大型语言模型中Transformer架构的可视化指南,涵盖自注意力、因果自注意力、掩码多头注意力以及输出层,并附有逐步解释和示例。