Transformer 数学探索器 [P]
摘要
这个交互式工具通过数据流图可视化 Transformer 模型的数学基础,涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。
这是一个面向 Transformer 模型的交互式数学参考,通过数据流图呈现,一直深入到初等数学。涵盖从 GPT-2 到 Qwen 3.6 的模型,支持 MLA、MoE、RoPE、MTP、混合注意力及其他变体的切换。最初是为自己做的,用来跟踪所有变体。如果你发现错误,或者觉得某些内容不直观或具有误导性,请告诉我!
相似文章
Transformer Explainer:交互式学习文本生成模型
Transformer Explainer 是一个交互式可视化工具,让非专业人士能够通过浏览器中的实时实验和可视化,理解 GPT-2 模型的内部工作机制。
@AlphaSignalAI: 这个免费的交互式解释器刚刚揭示了GPT实际上是如何工作的。大多数人把Transformer当作魔法。你输入…
一个名为Transformer Explainer的免费交互式工具,在浏览器中运行实时GPT-2模型,通过桑基图和实时推理可视化Transformer的内部工作原理。
@gordic_aleksa: 新深度博文时刻:Inside the Transformer: The Life of a Token 对现代密集Transformer的深入探讨,我…
一篇深入探讨现代密集Transformer内部工作原理的博文,涵盖YaRN(位置信息)、混合注意力(实现160k上下文长度)、soft capping、QK归一化,以及Transformer数学(包括FLOPs/Token公式和集群规模估算)。
重新审视Padded Transformer的表达能力:哪些架构选择重要,哪些不重要
这篇理论论文分析了填充Transformer的表达能力,表明与数值精度和模型深度相比,注意力类型、宽度和均匀性的影响很小。它建立了Transformer变体与电路复杂性类(如AC0和TC0)之间的等价关系,提供了稳健的特征描述。
Transformer学习Mestre-Nagao启发式方法
本文训练了一个两层Transformer编码器,利用Frobenius迹将有理椭圆曲线按秩分类,准确率超过99%。机械可解释性揭示该模型学习了Mestre-Nagao启发式方法,并将注意力集中在素数位置上,表明Transformer能够学习数论算法。