我发现Transformer中一个预测几何稳定性的隐藏比率 [R]
摘要
本文通过Lyapunov谱分析发现,MLP和注意力谱范数之间的比率能够预测Transformer模型的几何稳定性,最优范围在0.5–2之间,可防止秩坍缩。
我使用Lyapunov谱分析对若干解码器Transformer模型进行了分析,发现MLP和注意力谱范数的比率在很大程度上决定了模型是否会在最后几层坍缩到秩-1。我总结出,该谱比率最好保持在0.5–2左右,以确保模型稳定直到最后几层。GitHub仓库:[https://github.com/yousef-rafat/the-1-1-rule](https://github.com/yousef-rafat/the-1-1-rule)
相似文章
Transformer 记忆的吸引子几何:从冲突仲裁到自信幻觉
本文提出了一个统一的几何框架,用于理解 Transformer 的内存故障,通过隐藏状态吸引子盆地(attractor basins)区分冲突仲裁与幻觉。研究表明,随着模型规模的扩大,几何边际(geometric margin)在检测这些故障方面优于输出熵。
Transformer学习Mestre-Nagao启发式方法
本文训练了一个两层Transformer编码器,利用Frobenius迹将有理椭圆曲线按秩分类,准确率超过99%。机械可解释性揭示该模型学习了Mestre-Nagao启发式方法,并将注意力集中在素数位置上,表明Transformer能够学习数论算法。
思维的谱几何:相变、指令反转、Token级动力学与Transformers推理中的完美正确性预测
对11个大型语言模型的全面谱分析,揭示了Transformers在推理与事实回忆过程中隐层激活空间中的相变现象,发现了七个基本现象,包括谱压缩、指令微调反转以及仅基于谱特性的完美正确性预测(AUC=1.0)。
贡献权重:自注意力Transformer的几何分析
介绍贡献权重(Contribution Weights),这是一种基于投影的度量,它考虑了注意力权重、值向量的幅度和方向对齐,从而更准确地衡量Transformer大语言模型中的token重要性,揭示了注意力阱(attention sinks)的主动功能角色。
Transformer 残差流的动力学:谱几何与网络拓扑的耦合
本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。