llm-pruning

#llm-pruning

面向工业物联网设备端大语言模型推理的级联多粒度剪枝

arXiv cs.CL ↗ · 2天前缓存

本文提出了一种级联多粒度剪枝框架，用于在工业物联网边缘设备上部署大语言模型，在MHA+GELU架构上实现了高达13.8倍的压缩，且精度损失极小，同时揭示了GQA+SwiGLU设计上的性能崩溃。

0 人收藏 0 人点赞

#llm-pruning

arXiv cs.LG ↗ · 2026-06-15 缓存

本文实证比较了剪枝与从头训练小型语言模型的差异，发现在有限token预算下剪枝具有明显优势，但随着训练规模扩大，优势逐渐减小，尤其是在粗粒度剪枝情况下。

0 人收藏 0 人点赞