标签
Sebastian Raschka 指出,从 LatentMoE 到特征分解的灵感链:MLA、LoRA 和 SVD 层层启发。
本文对生产规模的大型语言模型进行了完整的 Jacobian 特征分解,揭示了从旋转主导的早期层到对称后期层的习得谱梯度,以及一个压缩扰动的低秩瓶颈。结果将扰动传播与压缩与网络功能拓扑联系起来。
时隔8年,作者重写了开源库pytorch-hessian-eigenthings,利用Lanczos等迭代方法为PyTorch模型提供Hessian及其他曲率矩阵的高效特征分解。