Transformer 数学探索器 [P]

Reddit r/MachineLearning 工具

摘要

这个交互式工具通过数据流图可视化 Transformer 模型的数学基础,涵盖了从 GPT-2 到 Qwen 3.6 的架构以及各种注意力机制。

这是一个面向 Transformer 模型的交互式数学参考,通过数据流图呈现,一直深入到初等数学。涵盖从 GPT-2 到 Qwen 3.6 的模型,支持 MLA、MoE、RoPE、MTP、混合注意力及其他变体的切换。最初是为自己做的,用来跟踪所有变体。如果你发现错误,或者觉得某些内容不直观或具有误导性,请告诉我!
查看原文

相似文章

Transformer学习Mestre-Nagao启发式方法

arXiv cs.LG

本文训练了一个两层Transformer编码器,利用Frobenius迹将有理椭圆曲线按秩分类,准确率超过99%。机械可解释性揭示该模型学习了Mestre-Nagao启发式方法,并将注意力集中在素数位置上,表明Transformer能够学习数论算法。