我发现Transformer中一个预测几何稳定性的隐藏比率 [R]

Reddit r/MachineLearning 论文

摘要

本文通过Lyapunov谱分析发现,MLP和注意力谱范数之间的比率能够预测Transformer模型的几何稳定性,最优范围在0.5–2之间,可防止秩坍缩。

我使用Lyapunov谱分析对若干解码器Transformer模型进行了分析,发现MLP和注意力谱范数的比率在很大程度上决定了模型是否会在最后几层坍缩到秩-1。我总结出,该谱比率最好保持在0.5–2左右,以确保模型稳定直到最后几层。GitHub仓库:[https://github.com/yousef-rafat/the-1-1-rule](https://github.com/yousef-rafat/the-1-1-rule)
查看原文

相似文章

Transformer 记忆的吸引子几何:从冲突仲裁到自信幻觉

arXiv cs.AI

本文提出了一个统一的几何框架,用于理解 Transformer 的内存故障,通过隐藏状态吸引子盆地(attractor basins)区分冲突仲裁与幻觉。研究表明,随着模型规模的扩大,几何边际(geometric margin)在检测这些故障方面优于输出熵。

Transformer学习Mestre-Nagao启发式方法

arXiv cs.LG

本文训练了一个两层Transformer编码器,利用Frobenius迹将有理椭圆曲线按秩分类,准确率超过99%。机械可解释性揭示该模型学习了Mestre-Nagao启发式方法,并将注意力集中在素数位置上,表明Transformer能够学习数论算法。

贡献权重:自注意力Transformer的几何分析

arXiv cs.LG

介绍贡献权重(Contribution Weights),这是一种基于投影的度量,它考虑了注意力权重、值向量的幅度和方向对齐,从而更准确地衡量Transformer大语言模型中的token重要性,揭示了注意力阱(attention sinks)的主动功能角色。

Transformer 残差流的动力学:谱几何与网络拓扑的耦合

arXiv cs.LG

本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。