超越 FP16 + ONNX 的 Transformer 体积与推理优化（剪枝/图优化收效甚微）[P]

Reddit r/MachineLearning 2026/04/23 11:06 论文

摘要

作者分享在 162 MB Transformer 上把 FP16 + ONNX + 剪枝用到极致却收益递减的经历，求教下一步该选量化、蒸馏、低秩分解还是硬件级技巧。

大家好，我一直在优化一个基于 Transformer 的神经网络，想同时压缩体积和提速推理，但感觉已撞墙，来求点建议。目前已把权重压到 FP16（体积约减半）、用 ONNX Runtime 导出并做图优化提速，也试了非结构化/结构化剪枝和 ONNX 图优化，却都没带来明显收益，模型仍约 162 MB。现在考虑下一步：低秩分解（SVD/LoRA 式压缩）、更激进的量化（INT8/INT4，如 GPTQ、AWQ、SmoothQuant）、知识蒸馏成更小的学生模型，或更硬件/运行时相关的优化（TensorRT、FlashAttention 等）。但我不确定在 FP16+剪枝之后，这些路线哪些能真正带来实际提升。想请教各位，Transformer 压缩走到这一步后，实战中通常哪种方法最管用？低秩方法在训练后真的有效吗，还是此时只能靠蒸馏/量化才有实质收益？

查看原文

超越 FP16 + ONNX 的 Transformer 体积与推理优化（剪枝/图优化收效甚微）[P]

相似文章

我仅能腾出小规模来摆弄Transformer

@PyTorch: 模型优化与训练后量化模型量化是一种减少VRAM使用并提高...

@tom_doerr: 压缩深度学习模型以加速推理 https://github.com/NVIDIA/Model-Optimizer…

基准测试：仅限CPU硬件上Parakeet TDT 0.6B的ONNX Runtime、HF Transformers与GGUF对比 [D]

SlimQwen：探索大规模MoE模型预训练中的剪枝与蒸馏

提交意见反馈