@amitiitbhu: Q × Kᵀ 告诉模型每个词与其他词的相关性。Softmax 将其转换为概率。V 提供…

X AI KOLs Timeline 新闻

摘要

一条推文解释了Transformer模型中注意力机制的核心公式:Q × Kᵀ 计算相关性,Softmax 将其转换为概率,V 提供内容,构成了现代AI的基础。

Q × Kᵀ 告诉模型每个词与其他词的相关性。 Softmax 将其转换为概率。V 提供实际内容。 一个公式。三个步骤。现代AI的完整基础。
查看原文
查看缓存全文

缓存时间: 2026/06/27 15:58

Q × KT 告诉模型每个词与其它词之间的相关性。

Softmax 将其转化为概率。V 提供实际内容。

一个公式。三步运算。整个现代 AI 的基础。

相似文章

@Phoenixyin13: 我认为这是ICML 2026里的上乘工作。 传统 Transformer 的 Attention 机制,本质上是点对点匹配,把输入切成一堆 token,即离散点,然后算 Query 和 Key 的相似度,再加权 Value。 这在 NLP…

X AI KOLs Timeline

介绍ICML 2026论文Functional Attention,将函数作为第一公民,用结构化线性算子替代softmax点对点相似度,解决传统Transformer处理连续函数时离散化、分辨率敏感和计算复杂度高的问题,在PDE求解、3D分割等任务上达到或超过SOTA,并具良好OOD泛化能力。