llm-pruning

标签

Cards List
#llm-pruning

面向工业物联网设备端大语言模型推理的级联多粒度剪枝

arXiv cs.CL · 2天前 缓存

本文提出了一种级联多粒度剪枝框架,用于在工业物联网边缘设备上部署大语言模型,在MHA+GELU架构上实现了高达13.8倍的压缩,且精度损失极小,同时揭示了GQA+SwiGLU设计上的性能崩溃。

0 人收藏 0 人点赞
#llm-pruning

小型LLM:剪枝与从头训练

arXiv cs.LG · 2026-06-15 缓存

本文实证比较了剪枝与从头训练小型语言模型的差异,发现在有限token预算下剪枝具有明显优势,但随着训练规模扩大,优势逐渐减小,尤其是在粗粒度剪枝情况下。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈