标签
# LiftQuant 引入"先提升后投影"机制,实现大语言模型的连续(非整数)位宽量化,精准适配硬件内存预算。该框架将 70B 大语言模型压缩至 2.4 位以适配 24GB GPU,性能超越当前最先进的 2 位模型。
介绍了QAM-W,一种针对LLM权重的联合二维码本量化方法,采用哈达玛旋转和激活感知缩放,在每权重5–6比特下实现接近BF16的困惑度,并以减少32%的权重比特达到与SmoothQuant W8A8相当的质量。
本文探讨了极低量化大语言模型中的平滑性退化问题,认为除了数值精度外,保持平滑性对于维持模型性能至关重要。
一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理,通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。
研究者发现激进LLM量化存在两种截然不同的失效模式——信号退化与计算崩溃,并证明无需训练的修复手段仅能缓解前者,表明超低比特模型需进行结构性重建。