标签
本文提出了一种级联多粒度剪枝框架,用于在工业物联网边缘设备上部署大语言模型,在MHA+GELU架构上实现了高达13.8倍的压缩,且精度损失极小,同时揭示了GQA+SwiGLU设计上的性能崩溃。
本文实证比较了剪枝与从头训练小型语言模型的差异,发现在有限token预算下剪枝具有明显优势,但随着训练规模扩大,优势逐渐减小,尤其是在粗粒度剪枝情况下。