llm-quantization

#llm-quantization

# LiftQuant：基于维度提升与投影的连续比特宽度大语言模型量化

arXiv cs.LG ↗ · 昨天缓存

# LiftQuant 引入"先提升后投影"机制，实现大语言模型的连续（非整数）位宽量化，精准适配硬件内存预算。该框架将 70B 大语言模型压缩至 2.4 位以适配 24GB GPU，性能超越当前最先进的 2 位模型。

0 人收藏 0 人点赞

#llm-quantization

arXiv cs.LG ↗ · 2026-05-27 缓存

介绍了QAM-W，一种针对LLM权重的联合二维码本量化方法，采用哈达玛旋转和激活感知缩放，在每权重5–6比特下实现接近BF16的困惑度，并以减少32%的权重比特达到与SmoothQuant W8A8相当的质量。

0 人收藏 0 人点赞

#llm-quantization

arXiv cs.CL ↗ · 2026-05-12 缓存

本文探讨了极低量化大语言模型中的平滑性退化问题，认为除了数值精度外，保持平滑性对于维持模型性能至关重要。

0 人收藏 0 人点赞

#llm-quantization

X AI KOLs Timeline ↗ · 2026-05-08 缓存

一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理，通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。

0 人收藏 0 人点赞

#llm-quantization

arXiv cs.CL ↗ · 2026-04-23 缓存

研究者发现激进LLM量化存在两种截然不同的失效模式——信号退化与计算崩溃，并证明无需训练的修复手段仅能缓解前者，表明超低比特模型需进行结构性重建。

0 人收藏 0 人点赞