Transformer 数学探索器 [P]

Reddit r/MachineLearning 2026/05/07 13:09 工具

摘要

这个交互式工具通过数据流图可视化 Transformer 模型的数学基础，涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。

这是一个面向 Transformer 模型的交互式数学参考，通过数据流图呈现，一直深入到初等数学。涵盖从 GPT-2 到 Qwen 3.6 的模型，支持 MLA、MoE、RoPE、MTP、混合注意力及其他变体的切换。最初是为自己做的，用来跟踪所有变体。如果你发现错误，或者觉得某些内容不直观或具有误导性，请告诉我！

查看原文

相似文章

Transformer Explainer：交互式学习文本生成模型

Papers with Code Trending

Transformer Explainer 是一个交互式可视化工具，让非专业人士能够通过浏览器中的实时实验和可视化，理解 GPT-2 模型的内部工作机制。

@AlphaSignalAI: 这个免费的交互式解释器刚刚揭示了GPT实际上是如何工作的。大多数人把Transformer当作魔法。你输入…

X AI KOLs Timeline

一个名为Transformer Explainer的免费交互式工具，在浏览器中运行实时GPT-2模型，通过桑基图和实时推理可视化Transformer的内部工作原理。

@gordic_aleksa: 新深度博文时刻：Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨，我…

X AI KOLs Timeline

一篇深入探讨现代密集Transformer内部工作原理的博文，涵盖YaRN（位置信息）、混合注意力（实现160k上下文长度）、soft capping、QK归一化，以及Transformer数学（包括FLOPs/Token公式和集群规模估算）。

重新审视Padded Transformer的表达能力：哪些架构选择重要，哪些不重要

arXiv cs.LG

这篇理论论文分析了填充Transformer的表达能力，表明与数值精度和模型深度相比，注意力类型、宽度和均匀性的影响很小。它建立了Transformer变体与电路复杂性类（如AC0和TC0）之间的等价关系，提供了稳健的特征描述。

Transformer学习Mestre-Nagao启发式方法