超越 FP16 + ONNX 的 Transformer 体积与推理优化(剪枝/图优化收效甚微)[P]

Reddit r/MachineLearning 论文

摘要

作者分享在 162 MB Transformer 上把 FP16 + ONNX + 剪枝用到极致却收益递减的经历,求教下一步该选量化、蒸馏、低秩分解还是硬件级技巧。

大家好,我一直在优化一个基于 Transformer 的神经网络,想同时压缩体积和提速推理,但感觉已撞墙,来求点建议。目前已把权重压到 FP16(体积约减半)、用 ONNX Runtime 导出并做图优化提速,也试了非结构化/结构化剪枝和 ONNX 图优化,却都没带来明显收益,模型仍约 162 MB。现在考虑下一步:低秩分解(SVD/LoRA 式压缩)、更激进的量化(INT8/INT4,如 GPTQ、AWQ、SmoothQuant)、知识蒸馏成更小的学生模型,或更硬件/运行时相关的优化(TensorRT、FlashAttention 等)。但我不确定在 FP16+剪枝之后,这些路线哪些能真正带来实际提升。想请教各位,Transformer 压缩走到这一步后,实战中通常哪种方法最管用?低秩方法在训练后真的有效吗,还是此时只能靠蒸馏/量化才有实质收益?
查看原文

相似文章

我仅能腾出小规模来摆弄Transformer

Reddit r/LocalLLaMA

一名学生介绍了Silia,这是一种新颖的Transformer架构,将注意力机制和前馈网络合并为统一操作,以在≤10M参数规模下节省参数,尽管计算资源有限,仍以更少的参数实现了与GPT-2相当的性能。

SlimQwen:探索大规模MoE模型预训练中的剪枝与蒸馏

Hugging Face Daily Papers

本文探讨了在预训练阶段压缩大规模混合专家(MoE)模型的结构化剪枝和知识蒸馏技术。研究表明,渐进式剪枝以及结合多标记预测蒸馏等策略,能够提升下游任务的性能。例如,通过将Qwen3-Next-80A3B压缩为更高效的23A2B模型,展示了这一方法的有效性。